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内 容 简 介 


本 书 借鉴 了 国内 和 国外 最 经 典 的 相关 教材 ,系统 地 论述 了 计算 机 系统 结构 的 基本 概念 、 基 本 结构 、 基 
本 方法 等 ,强调 从 开发 并 行 性 的 角度 、 用 量化 分 析 ( 性 能 评价 ) 的 方法 来 研究 和 分 析 计 算 机 系统 。 

全 书 共有 14 章 。 第 1 章 论述 基本 概念 .并 行 性 的 发 展 和 定量 分 析 基 础 。 第 2 章 论述 计算 机 指令 系统 
的 设计 和 MIPS 指令 系统 。 第 3 章 论述 流水 线 技术 ,包括 性 能 分 析 调度、 相关 和 冲突 以 及 流水 线 的 实现 。 
第 4 章 论述 向 量 处 理 机 的 结构 .特点 和 性 能 评价 。 第 5 章 和 第 6 章 分 别论 述 如 何 用 硬件 和 软件 的 方法 来 开 
发 指令 级 并 行 性 ,包括 记分 牌 和 Tomasulo 算法 、 基 于 硬件 的 前 瞻 执 行 、 多 指令 流出 技术 .循环 展开 、VLIW、 
EPIC 等 。 第 7 章 论述 存储 系统 ,重点 论述 Cache 的 基本 知识 及 提高 Cache 性 能 的 各 种 方法 。 第 8 章 论 述 总 
线 、 通 道 处 理 机 和 RAID。 第 9 章 论述 互连网 络 的 特性 参数 、 静 /动态 互连网 络 以 及 消息 传递 机 制 等 。 第 10 
章 论述 SMP .DSM、MPP 等 并 行 计算 机 系统 结构 ,论述 多 Cache 一 致 性 ,同步 .同时 多 线程 。 第 11 章 论 述 多 核 
架构 .实例 以 及 基于 多 核 的 并 行程 序 设计 。 最 后 三 章 分 别论 述 机 群 系统 、 阵 列 处 理 机 数据 流 计算 机 。 

本 书 内 容 丰 富 , 实 例 具体 ,语言 简练 ,可 读 性 好 ,可 作为 高 等 院 校 计算 机 及 相关 专业 的 教学 用 书 , 也 可 
供 相关 科技 人 员 参 考 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 .无 标签 者 不 得 销售 。 
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第 一 作者 简介 


张晨曦 , 男 ,1960 年 9 月 生 , 汉 族 ,福建 龙岩 人 人。 同济 大 学 软件 
学 院 教授 ,博士 生 导 师 。 国 家 级 “中 青年 有 突出 贡献 专家 ”, 国 家 杰 
出 青年 基金 获得 者 ,上 海 市 高 校 教 学 名 师 和 上 海 市 模范 教师 。 先 后 
主持 了 一 个 国家 973 计划 课题 和 5 项 国家 自然 科学 基金 项 目 。 

作为 课程 负责 人 ,张晨曦 建设 的 计算 机 系统 结构 课程 和 计算 机 
组 成 原理 课程 被 评 为 上 海 市 精品 课程 ,系统 结构 课程 于 2008 年 被 
评 为 国家 级 精品 课程 ,于 2013 年 被 评 为 国家 级 精品 资源 共享 课 。 
他 主讲 系统 结构 课程 和 从 事 系 统 结构 的 研究 三 十 余年 ，2008 年 开 
发 出 了 国内 第 一 套 200 个 用 于 本 课程 的 动画 课件 ,2009 年 开发 出 了 国内 第 一 套 系统 结构 实 
验 模拟 器 。 

张晨曦 负责 编写 出 版 的 计算 机 系统 结构 系列 教材 分 别 于 2009 年 和 2011 年 被 评 为 国家 
级 精品 教材 ,全 国 至 少 有 100 所 大 学 采用 了 该 教材 。 他 一 共 编 写 出 版 了 5 本 “十 一 五 ”国家 
级 规划 教材 。 扎 写 了 专著 两 部 。 其 中 专著 《新 一 代 计 算 机 ) 由 荷兰 North-Holland 出 版 社 
出 版 。 

张晨曦 获 部 委 级 科技 进步 一 等 奖 两 项 二 等 奖 一 项 ; 获 部 委 级 教学 成 果 一 、 二 、 三 等 奖 各 
一 项 。 曾 获 宝钢 优秀 教师 奖 、 上 海 市 育才 奖 、 上 海 高 校 教学 名 师 奖 、 湖 南 省 科技 青年 “十 佳 ”、 
全 军 优秀 教师 、 霍 英 东 青年 教师 奖 以 及 中 国 青 年 科技 奖 等 十 多 个 奖项 。 

从 15 岁 起 当中 学 教师 ,对 教学 方法 和 现代 教育 技术 有 深入 的 研究 ,提出 了 面向 远程 教 
育 和 CAI 的 动画 解析 教学 法 。 


业余 爱好 : 摄影 
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本 书 是 (计算 机 系统 结构 教程 (清华 大 学 出 版 社 ,2010 年 ) 的 修订 版 。 《计算 机 系统 结 
构 教程 ) 是 “十 一 五 ”国家 级 规划 教材 ,并 于 2011 年 被 评 为 国家 级 精品 教材 。 为 了 跟踪 和 反 
映 计算 机 技术 的 新 发 展 ,我 们 对 该 教材 进行 了 修订 ,补充 了 新 内 容 , 并 开发 了 配套 的 多 媒体 
动画 课件 以 及 用 于 实验 的 一 组 模拟 器 。 

本 书 适 用 于 重点 高 等 院 校 的 计算 机 、 软 件 工程 等 相关 专业 本 科 生 和 研究 生 。 在 内 容 的 
选取 上 ,本 书 不 仅 强 调 采 用 目前 国际 上 流行 的 量化 分 析 方 法 ,注意 介绍 新 技术 和 新 方法 ,而 
且 还 注重 对 经 典 的 结构 和 思想 等 的 论述 和 分 析 。 本 书 借鉴 了 国内 和 国外 最 经 典 的 相关 教 
材 , 吸 取 了 它们 各 自 的 优点 ,并 将 其 内 容 有 机 地 结合 在 一 起 。 

本 教材 的 主要 特点 是 : 

(1) 取材 先进 ,体系 完整 ,覆盖面 广 ,深度 与 广度 相 结合 ,适合 于 重点 大 学 。 

(2) 配 有 基于 动画 解析 教学 法 的 近 200 个 动画 课件 ,使 用 它们 进行 教学 或 者 自学 ,能 达 
到 非常 好 的 教学 效果 。 

(3) 配 有 基于 模拟 器 的 实验 ( 见 ( 计 算 机 系统 结构 实践 教程 )( 第 二 版 ) ,张晨曦 ,清华 大 
学 出 版 社 ), 对 于 深入 理解 和 掌握 本 课程 内 容 有 很 大 的 帮助 。 模 拟 器 是 我 们 自己 开发 的 , 拥 
有 自主 版 权 。 

(4) 重点 突出 ,可 读 性 好 ,语言 简练 ,通俗 易 懂 。 

全 书 共 有 14 章 。 各 章 内 容 如 下 : 

第 1 章 论述 计算 机 系统 结构 的 概念 以 及 系统 结构 和 并 行 性 的 发 展 , 并 介绍 定量 分 析 
基础 。 

第 2 章 为 “指令 系统 的 设计 ”, 论 述 计 算 机 指令 系统 设计 的 各 个 方面 ,包括 指令 系统 的 分 
类 、 寻 址 技术 .功能 设计 、 格 式 设计 以 及 指令 系统 的 发 展 和 改进 ,并 且 介绍 一 种 经 典 的 RISC 
计算 机 一 一 MIPS 的 指令 系统 。 

第 3 章 为 “流水 线 技术 ”, 论 述 流水 线 的 基本 概念 ,分 类 和 性 能 分 析 、 非 线性 流水 线 的 调 
度 ,介绍 流水 线 中 的 相关 和 冲突 问题 及 其 解决 方法 ,并 以 MIPS 为 例 讨论 流水 线 的 实现 。 

第 4 章 为 “向 量 处 理 机 ”, 论 述 向 量 处 理 机 的 结构 和 特点 ,提高 向 量 处 理 机 性 能 的 方法 以 
及 向 量 处 理 机 的 性 能 评价 ,并 介绍 了 三 个 向 量 处 理 机 实例 。 

第 5 章 和 第 6 章 分 别论 述 如 何 用 硬件 和 软件 的 方法 来 开发 指令 级 并 行 。 第 5 章 的 具体 
内 容 包 括 指令 级 并 行 的 概念 、 记 分 牌 和 Tomasulo 动态 调度 算法 、 基 于 硬件 的 前 瞻 执 行 以 及 

第 6 章 的 内 容 包 括 循环 展开 和 基本 指令 调度 、 跨 越 基 本 块 的 静态 指令 调度 、VLIW 技 
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术 、 显 式 指令 并 行 执行 EPIC 等 ,并 介绍 一 个 实例 一 一 Intel Itanium 处 理 器 。 

第 7 章 为 “存储 系统 ”, 论 述 Cache 的 基本 知识 、 降 低 Cache 不 命中 率 的 方法 减少 
Cache 不 命中 开销 的 方法 以 及 减少 命中 时 间 的 方法 ,并 对 并 行 主 存 和 虚拟 存储 器 做 简要 的 
讨论 。 最 后 ,还 介绍 了 一 个 存储 层次 实例 一 一 AMD Opteron 的 存储 器 层次 结构 。 

第 8 章 为 “输入 输出 系统 ”, 论 述 总 线 及 其 与 CPU/ 存 储 器 的 连接 、 通 道 处 理 机 及 其 流量 
分 析 ,并 详细 论述 了 廉价 磁盘 元 余 阵 列 RAID。 

第 9 章 为 “互连网 络 ”, 论 述 互 连 函 数 .互连网 络 的 特性 参数 .静态 互连网 络 ,动态 互连网 
络 以 及 消息 传递 机 制 等 。 

第 10 章 为 “多 处 理 机 ”, 论 述 对 称 式 共享 存储 器 系统 结构 、 分 布 式 共享 存储 器 系统 结构 、 
多 Cache 一 致 性 .同步 .同时 多 线程 以 及 MPP, 并 介绍 了 两 个 多 处 理 机 实例 。 

第 11 章 为 “多 核 架 构 与 编程 ”, 论 述 了 对 多 核 架 构 的 需求 、 几 种 多 核 架构 以 及 基于 多 核 
的 并 行程 序 设 计 。 

第 12 章 为 “机 群 系统 ”, 论 述 机 群 的 结构 .软件 模型 以 及 机 群 的 分 类 ,并 介绍 了 4 个 典型 
的 机 群 系统 。 

第 13 章 为 “阵列 处 理 机 ”, 论 述 阵列 处 理 机 的 操作 模型 .结构 和 特点 以 及 并 行 算 法 ,并 介 
绍 了 两 个 阵列 处 理 机 实例 。 

第 14 章 为 “数据 流 计算 机 ”, 论 述 数据 流 计算 机 模型 .数据 流程 序 图 和 数据 流 语言 .静态 
数据 流 计算 机 结构 以 及 动态 数据 流 计算 机 结构 。 

本 书 的 大 部 分 内 容 由 张晨曦 教授 编写 ,包括 第 1 一 3 章 和 第 7 一 9 章 , 王 志 英 教授 编写 了 
第 10 章 , 沈 立 副教授 编写 了 第 6 章 和 第 12 章 , 李 江 峰 编写 了 第 4 章 和 第 5 章 , 刘 依 编写 了 
第 13 章 和 第 14 章 , 王 伟 副 教授 编写 了 第 11 章 。 

本 书 直接 或 间接 地 引用 了 许多 专家 和 学 者 的 文献 或 著作 ,在 此 向 他 们 表示 衷心 的 感谢 。 

由 于 作者 水 平 有 限 , 书 中 难免 有 错误 和 不 妥 之 处 , 敬 请 读者 批评 指正 。 

欢迎 访问 张晨曦 的 个 人 摄影 网 站 : www. FotoSky. com。 


本 书 的 教学 课件 和 动画 可 从 “系统 结构 ” 微 信 公 众 号 (arch365) 获 得 。 请 扫描 以 下 二 维 
码 , 关 注 后 按 提示 操作 。 
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计算 机 系统 结构 的 基本 概念 ee eve 
1.1.1 计算 机 系统 的 层次 结构 
1.1.2 计算 机 系统 结构 的 定义 …… 

1.1.3 计算 机 组 成 和 计算 机 实现 …………… ~ ee 
1.1.4 计算 机 系统 结构 的 分 类 esse 
计算 机 系统 的 设计 
1.2.1 计算 机 系统 设计 的 定量 原理 … 
1.2.2 计算 机 系统 设计 者 的 主要 任务 ， 
1.2.3 计算 机 系统 设计 的 主要 方法 … 
计算 机 系统 的 性 能 评测 … ei 
计算 机 系统 结构 的 发 展 … 1 
1.4.1 汉 。 诺 依 曼 结构 及 其 改进 eso 17 
1.4.2 软件 对 系统 结构 的 影响 ee 19 
1.4.3 器 件 发 展 对 系统 结构 的 影响 … 
1.4.4 应 用 对 系统 结构 的 影响 ee 
计算 机 系统 结构 中 并 行 性 的 发 展 0s 和 sse 和 cscs 
1.5.3 单机 系统 中 并 行 性 的 发 展 … 

1. 5.4 多 机 系统 中 并 行 性 的 发 展 … 

1.5.5 并 行 机 的 发 展 变化 …………: 
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2.3.2 控制 指令 pp 36 
3 的 居 术 人 i 
2. 3.4 指令 令 字 格 式 的 优化 ,40 
2.4.1 沿 CISC 方 向 发 展 和 改进 指令 系统 
2.4.2 沿 RISC 方向 发 展 和 改进 指令 系统 ， 

操作 数 的 类 型 和 大 小 … : : 
MIPS 指令 系统 结构 … 17 
MIPS 的 指令 格式 - 
MIPS 的 操作 et 
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第 3 章 


习题 


a 


流水 线 的 性 能 指标 58 
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内 容 提要 

(1) 计算 机 系统 结构 的 基本 概念 ; 

(2) 计算 机 系统 的 设计 ; 

(3) 计算 机 系统 的 性 能 评测 ; 

(4) 计算 机 系统 结构 的 发 展 ; 

(5) 计算 机 系统 结构 中 并 行 性 的 发 展 。 


1.1 计算 机 系统 结构 的 基本 概念 


自 第 一 台 通用 电子 计算 机 诞生 以 来 的 六 十 多 年 中 ,计算 机 技术 一 直 在 以 惊人 的 速度 发 
展 , 对 于 许多 应 用 来 说 ,现在 的 高 性 能 微 处 理 器 的 性 能 已 经 超过 了 10 年 前 的 超级 计算 机 。 
这 种 飞速 的 发 展 一 方面 是 得 益 于 计算 机 制造 技术 的 发 展 , 另 一 方面 则 是 因为 计算 机 系统 结 
构 的 创新 。 

在 计算 机 开始 发 展 的 25 年 中 ,上 述 两 种 因素 都 起 着 主要 的 作用 ,它们 使 计算 机 的 性 能 
每 年 提高 约 25%。 从 20 世纪 70 年 代 末 到 80 年 代 初 ,大 规模 集成 电路 和 微 处 理 器 的 出 现 
使 得 计算 机 性 能 的 年 增长 率 提高 到 了 约 35%。 这 种 提高 主要 归功 于 以 集成 电路 为 代表 的 
制造 技术 的 发 展 。 

到 了 20 世纪 80 年 代 初 ,一 种 称 为 RISC(Reduced Instruction Set Computer) 的 结构 的 
出 现 , 使 计算 机 系统 结构 发 生 了 一 次 重大 变革 。 这 种 结构 简化 了 指令 系统 ,而 把 更 多 的 芯片 
硅 面 积 用 于 实现 流水 和 Cache, 更 有 效 地 提高 了 性 能 。 从 20 世纪 80 年 代 中 期 开始 ,计算 机 
的 性 能 增长 更 是 达到 了 每 年 50% 以 上 。 

但 是 ,从 2002 年 以 来 ,计算 机 性 能 的 年 增长 率 下 降 到 了 约 20% ,其 主要 原因 是 

Q@ 大 功 耗 问题 ; 

@ 可 以 进一步 有 效 开 发 的 指令 级 并 行 性 已 经 很 少 ; 

@ 存储 器 访问 速度 的 提高 缓慢 。 这 使 得 单个 处 理 机 性 能 的 提高 受到 了 严峻 的 挑战 。 
于 是 ,Intel 于 2004 年 宣布 放弃 其 高 性 能 单 处 理 器 项 目 . 转 向 多 核 (multi-core) 的 研究 和 开 
发 。 这 是 通过 在 单个 芯片 上 实现 多 个 处 理 器 核 来 提高 性 能 的 。IBM、Sun、AMD 等 公司 也 
都 纷纷 朝 这 个 方向 转变 ,这 标志 着 系统 结构 的 一 个 重大 转折 : 从 单纯 依靠 指令 级 并 行 转向 
开发 线程 级 并 行 和 数据 级 并 行 。 


计算 机 系统 结 欧 教程 (入 2 版 ) 


1.1.1 计算 机 系统 的 层次 结构 
计算 机 系统 是 由 密切 相关 的 硬件 和 软件 组 成 的 。 从 使 用 语言 的 角度 出 发 ,可 把 计算 机 


第 6 级 一 一 系统 按 功能 划分 成 如 图 1. 1 所 示 的 多 级 层次 结构 ,每 一 
应 用 语言 机 器 ER 后 
(虚拟 机 ) 层 以 一 种 不 同 的 语言 为 特征 。 按 照 计算 机 语言 从 低级 
和 高 琢 语言 机 加 到 高 级 的 次 序 ,这 些 层 次 依次 为 微 程序 机 器 级 ,传统 机 
器 语言 机 器 级 .操作 系统 机 器 级 .汇编 语言 机 器 级 、 高 级 
es 汇编 语言 机 器 语言 机 器 级 应 用 语言 机 器 级 (如 SQL) 等 。 对 于 每 一 
层 的 使 用 者 来 说 ,都 可 以 把 该 机 器 级 看 成 一 台独 立 的 计 
(虚拟 机 ) 操作 系统 机 器 算 机 ,可 以 用 其 相应 的 语言 进行 编程 ,并 在 该 级 上 运行 
守 2 统 pT 所 编 出 的 程序 . 

(物理 机 [一 第 1 级 是 微 程序 机 器 级 。 这 一 级 的 机 器 语言 是 微 
第 1 级 二 指令 系统 ,其 使 用 者 是 计算 机 硬件 的 设计 人 员 , 他 们 用 
(物理 机 ) 微 程序 机 器 


微 指令 编写 的 微 程序 直接 由 固件 /硬件 来 解释 实现 。 

第 2 级 是 传统 机 器 语言 机 器 级 。 这 一 级 的 机 器 语 
言 就 是 传统 的 机 器 指令 系统 。 程 序 员 用 该 指令 系统 编 
写 的 程序 由 第 1 级 上 的 微 程序 进行 解释 执行 。 

由 微 程 序 解释 指令 系统 又 称 做 仿真 (emulation)。 实 际 上 ,在 第 1 级 上 可 以 有 多 个 能 够 
在 它 上 面 运行 的 解释 程序 ,每 一 个 解释 程序 定义 了 一 种 指令 系统 。 因 此 ,可 以 通过 仿真 在 一 
台 计算 机 上 实现 多 种 指令 系统 。 

有 的 计算 机 中 没有 采用 微 程序 技术 ,因此 没有 微 程序 机 器 级 。 这 时 ,第 2 级 的 指令 系统 
是 由 硬 连 逻 辑 直 接 解释 执行 的 。 硬 连 逻 辑 的 优点 是 速度 快 ,RISC 处 理 器 经 常 采用 这 种 实 
现 方法 (因为 其 指令 系统 比较 简单 ) 。 

第 3 级 是 操作 系统 机 器 级 。 这 一 级 的 机 器 语言 由 两 部 分 构成 ,一 部 分 就 是 传统 机 器 级 
指令 , 另 一 部 分 是 操作 系统 级 指令 。 后 者 用 于 实现 对 操作 系统 功能 的 调用 ,例如 打开 /关闭 
文件 . 读 / 写 文件 等 。 用 这 一 级 语言 编写 的 程序 是 由 第 3 级 和 第 2 级 来 共同 执行 的 ,其 中 只 
有 操作 系统 级 指令 是 由 操作 系统 进行 解释 执行 的 。 

第 4 级 是 汇编 语言 机 器 级 。 这 一 级 的 机 器 语言 是 汇编 语言 。 用 汇编 语言 编写 的 程序 首 
先 翻译 成 第 3 级 和 第 2 级 语言 ,然后 再 由 相应 的 机 器 执行 。 完 成 这 个 翻译 的 程序 称 为 汇编 
程序 。 

第 5 级 是 高 级 语言 机 器 级 。 这 级 的 机 器 语言 就 是 各 种 高 级 语言 (如 C、Pascal 等 )。 用 
高 级 语言 编写 的 程序 一 般 由 编译 器 翻译 到 第 4 级 或 第 3 级 机 器 上 的 语言 。 个 别 的 高 级 语言 
也 用 解释 的 方法 实现 ,如 绝 大 多 数 BASIC 语言 。 

第 6 级 是 应 用 语言 机 器 级 。 这 一 级 是 为 使 计算 机 满足 某 种 用 途 而 专门 设计 的 ,因此 这 
一 级 的 语言 就 是 各 种 面向 具体 应 用 问题 的 应 用 语言 。 用 应 用 语言 编写 的 程序 一 般 由 应 用 程 
序 包 翻 译 成 第 5 级 机 器 上 的 语言 。 

各 机 器 级 的 实现 主要 靠 翻译 或 解释 ,或 两 者 的 结合 。 翻 译 (translation) 是 先 用 转换 程 
序 把 高 一 级 机 器 上 的 程序 转换 为 低 一 级 机 器 上 等 效 的 程序 ,然后 再 在 该 低 一 级 机 器 上 运行 ， 
实现 程序 的 功能 。 解 释 (interpretation) 则 是 对 于 高 一 级 机 器 上 的 程序 中 的 每 一 条 语句 或 指 


图 1.1 计算 机 系统 的 多 级 层次 结构 
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令 ,都 转 去 执行 低 一 级 机 器 上 的 一 段 等 效 程序 。 执 行 完 后 ,再 去 高 一 级 机 器 取 下 一 条 语句 或 
指令 ,再 进行 解释 执行 ,如 此 反复 ,直到 解释 执行 完整 个 程序 。 这 两 种 技术 都 被 广泛 使 用 。 
一 般 来 说 ,解释 执行 比 编译 后 再 执行 所 花 的 时 间 多 ,但 占用 的 存储 空间 较 少 。 

在 上 述 6 级 层次 中 ,下 面 三 级 一 般 是 用 解释 实现 的 ,而 上 面 三 级 则 经 常 是 用 翻译 的 方法 
实现 的 。 另 外 ,最 下 面 的 两 级 机 器 是 用 硬件 /固件 实现 的 , 称 为 物理 机 (Physical Machine) 。 
上 面 4 层 一 般 是 由 软件 实现 的 。 用 软件 实现 的 机 器 称 为 虚拟 机 (Virtual Machine) 。 

虚拟 机 不 一 定 完全 由 软件 实现 ,有 些 操作 可 以 由 硬件 或 固件 实现 。 固件 (firmware) 是 
指 具 有 软件 功能 的 硬件 。 例 如 ,把 软件 固化 在 只 读 存储 器 中 就 是 一 种 固件 。 通 过 修改 固件 
中 的 软件 代码 ,就 可 以 改变 其 功能 。 与 硬 连 逻辑 相 比 ,固件 的 特点 是 灵活 性 大 ,但 速度 较 慢 。 


1.1.2 计算 机 系统 结构 的 定义 


计算 机 系统 结构 (Computer Architecture) 的 经 典 定义 是 1964 年 Amdahl 在 介绍 
IBM360 系统 时 提出 的 : 计算 机 系统 结构 是 指 传统 机 器 程序 员 所 看 到 的 计算 机 属性 , 即 概念 
性 结构 与 功能 特性 。 按 照 计 算 机 系统 的 多 级 层次 结构 ,不 同 级 程序 员 所 看 到 的 计算 机 具有 
不 同 的 属性 。 例 如 ,传统 机 器 级 程序 员 所 看 到 的 主要 属性 是 该 机 器 指令 系统 的 功能 特性 ,而 
高 级 语言 虚拟 机 程序 员 所 看 到 的 主要 属性 则 是 该 机 器 所 配置 的 高 级 语言 所 具有 的 功能 

显然 ,不 同 的 计算 机 系统 ,从 传统 机 器 级 或 汇编 语言 程序 员 的 角度 来 看 .具有 不 同 的 属 
性 。 但 是 从 高 级 语言 (如 C 语言 ) 程 序 员 的 角度 来 看 .它们 几乎 没有 什么 差别 ,具有 相同 的 
属性 。 也 就 是 说 ,这 些 传 统 机 器 级 所 存在 的 差别 对 于 高 级 语言 程序 员 来 讲 是 “看 不 见 ” 的 。 
在 计算 机 技术 中 ,把 这 种 本 来 存在 的 事物 或 属性 ,但 从 某 种 角度 看 又 好 像 不 存在 的 概念 称 为 
透明 性 (transparency)。 通 常 ,在 一 个 计算 机 系统 中 ,低层 机 器 的 属性 对 高 层 机 器 的 程序 员 
来 说 往往 是 透明 的 。 

可 以 看 出 ,在 计算 机 层次 结构 的 各 个 级 上 都 有 它 自己 的 系统 结构 。 而 Amdahl 所 指 的 
则 是 传统 机 器 级 上 的 系统 结构 。 计 算 机 系统 结构 的 实质 是 确定 计算 机 系统 中 软 硬 件 的 交界 
面 ,界面 之 上 是 软件 实现 的 功能 ,界面 之 下 是 硬件 和 固件 实现 的 功能 。 

在 J.L. Hennessy 和 D. A. Patterson 编写 的 Computer Architecture: A Quantitative 
Approach 一 书 中 ,把 系统 结构 定义 为 吉 括 计算 机 设计 的 三 个 方面 : 指令 系统 结构 .组 成 、 硬 
件 。 我 们 不 妨 将 其 理解 为 广义 的 系统 结构 定义 。 


1.1.3 计算 机 组 成 和 计算 机 实现 


计算 机 组 成 (Computer Organization) 指 的 是 计算 机 系统 结构 的 逻辑 实现 ,包含 物理 机 
器 级 中 的 数据 流 和 控制 流 的 组 成 以 及 逻辑 设计 等 。 它 着 眼 于 物理 机 器 级 内 各 事件 的 排序 方 
式 与 控制 方式 、 各 部 件 的 功能 以 及 各 部 件 之 间 的 联系 。 

计算 机 实现 (Computer Implementation) 指 的 是 计算 机 组 成 的 物理 实现 ,包括 处 理 机 、 
主 存 等 部 件 的 物理 结构 ,器件 的 集成 度 和 速度 ,模块 插件、 底板 的 划分 与 连接 ,信号 传输 , 电 
源 ,冷却 及 整 机 装配 技术 等 。 它 着 眼 于 器 件 技术 和 微 组 装 技术 ,其 中 器 件 技术 在 实现 技术 中 
起 主导 作用 。 

下 面 举例 说 明 上 述 三 个 概念 的 区 别 。 
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(1) 确定 指令 系统 中 是 否 有 乘法 指令 属于 计算 机 系统 结构 的 内 容 , 但 乘法 指令 是 用 专 
门 的 乘法 器 实现 ,还 是 用 加 法 器 经 多 步 操作 来 实现 ,属于 计算 机 组 成 。 而 乘法 器 .加 法 器 的 
物理 实现 ,如 器 件 的 选 定 及 所 用 的 微 组 装 技术 等 ,属于 计算 机 实现 。 

(2) 主 存 容 量 与 编 址 方式 ( 按 位 、 按 字 节 或 按 字 访 问 等 ) 的 确定 属于 计算 机 系统 结构 。 
为 了 达到 给 定 的 性 能 价格 比 , 主 存 速度 应 多 快 . 逻 辑 结构 是 否 采用 多 体 交 叉 等 属于 计算 机 组 
成 。 而 主 存 系统 的 物理 实现 ,如 器 件 的 选 定 、 人 逻辑 电路 的 设计 、 微 组 装 技 术 的 使 用 等 均 属于 
计算 机 实现 。 

可 以 看 出 ,具有 相同 系统 结构 的 计算 机 因为 速度 、 价 格 等 方面 要 求 的 不 同 ,可 以 采用 不 
同 的 计算 机 组 成 。 而 同一 种 计算 机 组 成 又 可 以 采用 多 种 不 同 的 计算 机 实现 。 系 列 机 的 出 现 
充分 反映 了 这 一 点 。 系 列 机 (Family Machine) 是 指 由 同一 厂家 生产 的 具有 相同 系统 结构 、 
但 具有 不 同 组 成 和 实现 的 一 系列 不 同型 号 的 计算 机 。 例 如 IBM 公司 的 IBM370 系列 ,Intel 
公司 的 x86 系列 等 。1. 4. 2 节 将 对 系列 机 作 进一步 介绍 。 


1.1.4 计算 机 系统 结构 的 分 类 


常见 的 计算 机 系统 结构 分 类 法 有 三 种 : Flynn 分 类 法 、 冯 氏 分 类 法 和 Handler 分 类 法 。 

1. Flynn 分 类 法 

Flynn 分 类 法 是 按照 指令 流 和 数据 流 的 多 倍 性 进行 分 类 的 , 它 是 M.J. Flynn 于 1966 年 
提出 的 。Flynn 分 类 法 中 的 定义 如 下 。 

指令 流 (Instruction Stream) : 计算 机 执行 的 指令 序列 。 

数据 流 (Data Stream): 由 指令 流 调用 的 数据 序列 。 

多 倍 性 (Multiplicity) : 在 系统 最 受 限 的 部 件 上 ,同时 处 于 同一 执行 阶段 的 指令 或 数据 
的 最 大 数目 。 

Flynn 分 类 法 把 计算 机 系统 的 结构 分 为 以 下 4 类 : 

(1) 单 指 令 流 单数 据 流 (Single Instruction stream Single Data stream,SISD); 

(2) 单 指令 流 多 数据 流 (Single Instruction stream Multiple Data stream,SIMD); 

(3) 多 指令 流 单数 据 流 (Multiple Instruction stream Single Data stream, MISD); 

(4) 多 指令 流 多 数据 流 (Multiple Instruction stream Multiple Data stream, MIMD)。 

这 4 类 计算 机 的 基本 结构 如 图 1.2 所 示 。 图 中 IS(Instruction Stream) 表 示 指 令 流 ,DS 
(Data Stream) 表 示 数 据 流 ,CS(Control Stream) 表 示 控 制 流 .CU(Control Unit) 表 示 控 制 部 
件 ,PU(Processing Unit) 表 示 处 理 部 件 ,MM 和 SM 表示 存储 器 。 

SISD 是 传统 的 顺序 处 理 计算 机 。SIMD 以 阵列 处 理 机 为 代表 。 在 SIMD 计算 机 中 ,在 
同一 控制 部 件 (CU) 的 控制 下 ,多 个 处 理 部 件 (PU) 同 时 执行 同一 条 指令 所 规定 的 操作 ,分 别 
对 各 自 的 数据 进行 处 理 。 这 些 数据 来 自 不 同 的 地 方 ,分 别 构成 各 自 的 数据 流 。MISD 只 是 
一 种 人 为 的 划分 ,目前 没有 实际 的 机 器 。 多 处 理 机 属于 MIMD 结构 。 

对 于 流水 线 处 理 机 应 该 划 归 到 哪 一 类 ,有 不 同 的 看 法 。 不 少 人 认为 : 把 标量 流水 线 处 
理 机 划 入 SISD、 把 向 量 流水 线 处 理 机 划 入 SIMD 比较 合适 。 

2. 冯 氏 分 类 法 

冯 氏 分 类 法 是 用 系统 的 最 大 并 行 度 对 计算 机 进行 分 类 的 。 它 是 由 冯 泽 云 先 生 于 1972 
年 提出 的 。 最 大 并 行 度 Pu 定义 为 : 计算 机 系统 在 单位 时 间 内 能 够 处 理 的 最 大 二 进 制 位 数 。 
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图 1. 3 给 出 了 用 最 大 并 行 度 对 计算 机 系统 结构 进行 分 类 的 情况 。 用 平面 直角 坐标 系 中 的 一 
个 点 代表 一 个 计算 机 系统 ,其 横 坐 标 代表 字 宽 (n 位 ) , 即 在 一 个 字 中 同时 处 理 的 二 进位 的 位 
数 。 纵 坐标 代表 位 片 宽度 (mm 位 ), 即 在 一 个 位 片 中 能 同时 处 理 的 字数 。 这 样 ,m Xn 就 表示 
了 其 最 大 并 行 度 。 在 图 1. 3 中 ,就 是 用 通过 该 点 的 水 平 线 和 垂直 线 与 两 坐标 轴 围 成 的 矩形 
面积 来 表示 的 。 


SM 
DS 
PU = | 
MM 
Ds; 
PU, (=——= | MM: 
CU CS 
IS 
| PU, DS, MMw 
eo OS Bi DS MM 1s 
(a) SISD 计 算 机 (b) SIMD 计 算 机 
SM 
TS， CS DS， 
-| CU =~| PU [= 
MM 
IS; CS， Ds, 
~ CU， 上 一 ~| PU, ~ | MM: 
IS, CS, DS, 
CU, —™ PU， 上 | 一 | MM 
(c) MISD 计 算 机 (d) MIMD 计 算 机 


图 1.2 4 类 计算 机 的 基本 结构 


由 图 1. 3 可 得 出 4 类 不 同 最 大 并 行 度 的 计算 机 系统 结构 。 

(1) 字 串 位 串 : n= 二 1,m 二 1。 这 是 第 一 代 计 算 机 发 展 初期 的 纯 串 行 计算 机 。 

(2) 字 串 位 并 : n 记 1,m 二 1。 这 是 传统 的 单 处 理 机 ,同时 处 理 单个 字 的 多 个 位 ,如 16 
位 、32 位 等 ,如 IBM370 机 就 属于 这 种 结构 。 

(3) 字 并 位 串 : x 一 1,m 二 1。 同 时 处 理 多 个 字 的 同一 位 (位 片 )。STARAN,MPP,DAP 
属于 这 种 结构 。 

(4) 字 并 位 并 : zx 二 1,m 二 1。 同 时 处 理 多 个 字 的 多 个 位 。PEPE,Illiac N ,Cmmp 属于 
这 种 结构 。 

与 最 大 并 行 度 密切 相关 的 一 个 指标 是 平均 并 行 度 。 假 设 每 个 时 钟 周期 内 能 同时 处 理 的 


>P 


二 进 制 位 数 为 P;, 则 了 个 时 钟 周期 内 的 平均 并 行 度 为 p, 一 一 下 3 平均 并 行 度 不 同 于 最 大 
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并 行 度 , 它 取 决 于 系统 的 运用 程度 ,与 应 用 程序 有 关 。 系 统 在 工 个 时 钟 周期 内 的 平均 利用 


六 
率 定义 为 p= 号 二 
MPP 
16 384 了 (16384) 
| 
| 
PEPE 
288|-K= 一 = 一 一 一 一 一 一 -一 一 
256| 4STARAN 了 G2.288) 
1 
全 | (1250) 相 Illiac IV 
二 I ? 
| 人 
当 ! | 1TLASC 
~ 3 上 守 二 + (64,32) 
1 1 1 
1 
Cmmp(16,16) 1 
, | EDVAC ? PDP-11  !1BM370/168 | 
SD) 6D) 2D 1 
| 1 1 
1 16 32 64 


图 1.3 按 最 大 并 行 度 分 类 的 冯 氏 分 类 法 


3. Handler 分 类 法 
Wolfgan Handler 在 1977 年 根据 并 行 度 和 流水 线 提出 了 另 一 种 分 类 法 。 这 种 分 类 方 
法 把 计算 机 的 硬件 结构 分 成 三 个 层次 ,并 考虑 它们 的 可 并 行 -流水 处 理 程度 。 这 三 个 层 
次 是 : 
(1) 程序 控制 部 件 (PCU) 的 个 数 es 
(2) 算术 逻辑 部 件 (ALU) 或 处 理 部 件 (PE) 的 个 数 d; 
(3) 每 个 算术 逻辑 部 件 包 含 基 本 逻辑 线路 (ELC) 的 套数 包 。 
这 样 就 可 以 把 一 个 计算 机 系统 的 结构 用 以 下 公式 表示 : 
(系统 型 号 ) = (k,d ,tw) 
为 了 进一步 反映 流水 线 的 特性 ,可 以 将 该 公式 改进 为 
t (系统 型 号 ) 一 (kXk',d Xd’,wXw) 
其 中 ,表示 宏 流水 线 中 程序 控制 部 件 的 个 数 ,d' 表 示 指 令 流水 线 中 算术 逻辑 部 件 的 个 数 ， 
w 表示 操作 流水 线 中 基本 逻辑 线路 的 套数 。 
例如 ,Cray-1 有 一 个 CPU,12 个 相当 于 ALU 或 PE 的 处 理 部 件 ,可 以 最 多 实现 8 级 流 
水 线 。 字 长 为 64 位 ,可 以 实现 1 一 14 位 流水 线 处 理 。 所 以 Cray-1 系统 结构 可 表示 为 
t(Cray-1) = [1,12 X 8,64 X (1 ~ 14)] 
下 面 是 采用 这 种 分 类 法 的 几 个 例子 : 
ti(PDP-11) = (1,1,16) 
(Illiac N) = (1,64.,64) 
(STARAN) = (1,8192,1) 
1(Cmmp) = (16.1.16) 
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t(PEPE) 一 (1X3,288,.32) 
t(TI-ASC) = (1.4.64 x 8) 


1.2 计算 机 系统 的 设计 


1.2.1 计算 机 系统 设计 的 定量 原理 


本 节 介绍 计算 机 系统 设计 中 经 常用 到 的 4 个 定量 原理 。 

1. 以 经 常 性 事件 为 重点 

以 经 常 性 事件 为 重点 是 计算 机 设计 中 最 重要 、 最 广泛 采用 的 设计 原则 。 在 计算 机 系统 
的 设计 中 ,经常 要 在 不 同 的 方法 之 间 进 行 折 中 ,这 时 要 按照 对 经 常 发 生 的 情况 采用 优化 方法 
的 原则 进行 选择 ,因为 这 样 能 得 到 更 多 的 总 体 上 的 改进 。 这 里 的 优化 是 指 分 配 更 多 的 资源 、 
达到 更 高 的 性 能 等 。 

加 快 经 常 性 事件 的 处 理 速度 能 显著 地 提高 整个 计算 机 系统 的 性 能 。 例 如 ,在 CPU 中 
两 个 数 进行 相 加 运算 时 , 相 加 的 结果 有 可 能 会 出 现 溢出 现象 ,但 一 般 情况 是 不 会 发 生 溢出 
的 ,也 就 是 说 不 发 生 溢出 是 经 常 性 事件 。 因 此 应 该 按照 不 发 生 溢出 的 情况 来 进行 性 能 优化 
设计 。 即 使 会 使 溢出 情况 下 的 处 理 速 度 变 慢 也 没关系 。 

一 般 来 说 ,经 常 性 事件 的 处 理 比较 简单 ,因此 也 就 更 容易 进行 优化 实现 。 

本 书 会 经 常 使 用 这 个 原则 。 那 么 ,对 经 常 性 事件 的 优化 实现 能 在 多 大 程度 上 改进 整个 
系统 的 性 能 呢 ?” 下 面 介绍 的 Amdahl 定律 可 以 给 出 定量 的 说 明 。 

2. Amdahl 定律 

Amdahl 定律 告诉 我 们 : 当 对 一 个 系统 中 的 某 个 部 件 进 行 改进 后 ,所 能 获得 的 整个 系统 
性 能 的 提高 , 受 限于 该 部 件 的 执行 时 间 占 总 执行 时 间 的 百分比 。 它 可 以 用 来 具体 地 计算 : 
当 对 计算 机 系统 中 的 某 个 部 分 进行 改进 后 ,所 能 获得 的 加 速 比 的 大 小 。 

加 速 比 说 明了 改进 后 的 计算 机 比 改进 前 快 了 多 少 倍 。 假 设 对 某 台 计算 机 进行 了 某 种 改 
进 ,那么 所 获得 的 加 速 比 为 


系统 性 能 was 。 总 执行 时 间 aaw 
加 速 比 一 系统 性 能 www ”总 执行 时 间 mas 


这 个 加 速 比 的 大 小 与 两 个 因素 有 关 。 一 个 是 在 改进 前 的 系统 中 ,可 改进 部 分 的 执行 时 
间 在 总 的 执行 时 间 中 所 占 的 比例 ,简称 可 改进 比例 , 记 为 Fe。Fe 总 是 小 于 1 的 ; 另 一 个 是 
可 改进 部 件 改 进 以 后 性 能 提高 的 倍数 。 它 是 改进 前 所 需 的 执行 时 间 与 改进 后 执行 时 间 的 
比 ,简称 部 件 加 速 比 , 记 为 Se。Se 总 是 大 于 1。 

例如 ,一 个 需 运 行 60s 的 程序 中 有 20s 的 运算 可 以 加 速 ,那么 其 Fe 就 是 20/60。 若 该 系 
统 改进 后 ,可 改进 部 分 的 执行 时 间 减 少 为 5s, 则 其 Se 为 20/5。 

部 件 改进 后 ,程序 中 可 改进 部 分 的 执行 时 间 被 缩短 为 原来 的 1/Se. 但 不 可 改进 的 那 部 
分 的 执行 时 间 没 有 变化 。 所 以 改进 后 程序 的 总 执行 时 间 为 


= (一 Fe+ 呈 ) 
本 


其 中 Tu 为 改进 前 整个 程序 的 执行 时 间 ,1 一 Fe 为 不 可 改进 比例 。 
改进 后 ,整个 系统 的 加 速 比 为 
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I 
Fe 
(1 Fe) 十 垃 


例 1.1 将 计算 机 系统 中 某 一 功能 的 处 理 速度 加 快 15 倍 ,但 该 功能 的 处 理 时 间 仅 占 整 
个 系统 运行 时 间 的 40%, 则 采用 此 改进 方法 后 .能 使 整个 系统 的 性 能 提高 多 少 ? 

解 ” 由 题 可 知 Fe 二 40%= 二 0.4,Se 二 15 

根据 Amdahl 定律 可 知 

1 1 
入 a Fe) 十 如 (一 0.9 十 9 

采用 此 改进 方法 后 ,能 使 整个 系统 的 性 能 提高 到 原来 的 1.6 售 。 

例 1.2 某 计算 机 系统 采用 浮 点 运算 部 件 后 ,使 浮 点 运算 速度 提高 到 原来 的 25 倍 ,而 
系统 运行 某 一 程序 的 整体 性 能 提高 到 原来 的 4 倍 , 试 计算 该 程序 中 浮 点 操作 所 占 的 比例 。 

解 ” 由 题 可 知 Se 二 25 S, 二 4 

根据 Amdahl 定律 可 知 


0 
I 
1 


和 
位 二 和 + 恬 

由 此 可 得 Fes*78.1 名 。 即 程序 中 浮 点 操作 所 占 的 比例 为 78.1%。 

Amdahl 定律 还 表达 了 一 种 性 能 改进 的 递减 规则 : 如 果 仅 仅 对 计算 任务 中 的 一 部 分 做 
性 能 改进 , 则 改进 得 越 多 ,所 得 到 的 总 体 性 能 的 提升 就 越 有 限 。 

当 Se~cc 时 ,S,=1/(1 一 Fe)。 即 如 果 只 针对 整个 任务 的 一 部 分 进行 改进 和 优化 ,那么 
所 获得 的 加 速 比 不 超过 1/ (1 一 Fe)。 

在 用 Amdahl 定律 计算 系统 的 加 速 比 时 ,需要 知道 可 改进 比例 是 多 少 , 但 通常 很 难 直接 
计算 出 这 个 比例 。 下 面 介 绍 的 CPU 公式 从 另 一 个 角度 来 计算 和 比较 性 能 。 

3. CPU 性 能 公式 

执行 一 个 程序 所 需 的 CPU 时 间 可 以 这 样 来 计算 。 

CPU 时 间 = 执行 程序 所 需 的 时 钟 周期 数 xX 时 钟 周期 时 间 

其 中 时 钟 周期 时 间 是 时 钟 频率 的 倒数 。 

引入 新 的 参数 CPI(Cycles Per Instruction) , 即 每 条 指令 的 平均 时 钟 周期 数 , 有 时 简称 
为 指令 的 平均 时 钟 周期 数 。 

CPI = 执行 程序 所 需 的 时 钟 周期 数 / 所 执行 的 指令 条 数 
则 有 以 下 的 CPU 性 能 公式 。 
CPU 时 间 = IC Xx CPI X 时 钟 周 期 时 间 

其 中 IC 为 所 执行 的 指令 条 数 。 

根据 这 个 公式 可 知 ,CPU 的 性 能 取决 于 以 下 三 个 参数 。 

(1) 时 钟 周期 时 间 : 取决 于 硬件 实现 技术 和 计算 机 组 成 ; 

(2) CPI: 取决 于 计算 机 组 成 和 指令 系统 的 结构 ; 

(3) IC: 取决 于 指令 系统 的 结构 和 编译 技术 。 
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改进 任何 一 个 参数 ,都 能 提高 CPU 的 性 能 。 不 过 ,这 些 参数 是 相互 关联 的 ,很 难 做 到 
能 单独 地 改进 某 一 个 参数 指标 而 不 影响 其 他 两 个 指标 ( 变 坏 )。 幸 运 的 是 ,有 可 能 设法 使 这 
种 影响 不 会 太 大 ,或 者 至 少 是 可 以 预测 的 。 

CPU 设计 中 还 经 常用 到 下 面 计算 CPU 时 钟 周期 总 数 的 方法 。 


CPU 时 钟 周 期 数 = Si (CPL Xx IC:) 


其 中 IC; 为 程序 执行 的 过 程 中 第 i 种 指令 出 现 的 次 数 ,CPT; 为 执行 第 i 种 指令 所 需 的 平均 时 
钟 周期 数 ,n 为 指令 的 种 数 。 
这 时 的 CPU 性 能 公式 为 


CPU 时 间 = CPU 时 钟 周期 数 x 时 钟 周期 时 间 = 3 (CPJ; X IC; ) X 时钟 周 期 时 间 
CPI 可 以 表示 为 


DCPEXIC)  ， 
CPI = ee 一 芭 ! Ic = > (cPr x 紧 ) 

其 中 (IC;/IC) 反 映 了 第 i 种 指令 在 程序 执行 过 程 中 所 占 的 比例 。 

下 面 通过 一 个 例子 来 说 明 上 述 CPU 性 能 公式 的 应 用 。 

例 1.3 假设 FP 指令 的 比例 为 25%, 其 中 ,FPSQR 占 全 部 指令 的 比例 为 2% ,FP 操作 
的 CPI 为 4,FPSQR 操作 的 CPI 为 20 ,其 他 指令 的 平均 CPI 为 1.33。 现 有 两 种 改进 方案 ， 
第 一 种 是 把 FPSQR 操作 的 CPI 减 至 2, 第 二 种 是 把 所 有 的 FP 操作 的 CPI 减 至 2, 试 比较 两 
种 方案 对 系统 性 能 的 提高 程度 。 

解 ”没有 改进 之 前 ,每 条 指令 的 平均 时 钟 周期 (CPI) 为 


CPI= > (cer x 刁 ]= (4X25%) 十 (1.33X75%) 之 2 


(1) 采用 第 一 种 方案 : FPSQR 操作 的 CPI 由 CPIresa 二 20 减 至 CPIfesag 二 2, 则 整个 系 

统 的 指令 平均 时 钟 周期 数 为 
CPlh = CPI 一 (CPIFesao 一 CPlI'Fesor) X 2% 一 2 一 (20 一 2) X2% = 1.64 

(2) 采用 第 二 种 方案 : 所 有 FP 操作 的 CPI 由 CPIre 王 4 减 至 CPIfp 王 2, 则 整个 系统 的 

指令 平均 时 钟 周期 数 为 
CPI; = CPI 一 (CPIm 一 CPIte) X25% 一 2 一 (4 一 2) X25% =1.5 

从 降低 整个 系统 的 指令 平均 时 钟 周期 数 的 程度 来 看 ,第 二 种 方案 优 于 第 一 种 方案 。 

例 1.4 考虑 条 件 分 支 指令 两 种 的 不 同 设计 方法 。 

(1) CPU : 通过 比较 指令 设置 条 件 码 ,然后 测试 条 件 码 进行 分 支 ; 

(2) CPU : 在 分 支 指 令 中 包括 比较 过 程 。 

假设 在 这 两 种 CPU 中 ,条件 分 支 指令 都 占用 2 个 时 钟 周期 而 所 有 其 他 指令 占用 1 个 时 
钟 周期 ,对 于 CPU ,执行 的 指令 中 分 支 指令 占 30%; 由 于 每 条 分 支 指 令 之 前 都 需要 有 比较 
指令 ,因此 比较 指令 也 占 30%。 由 于 CPU 在 分 支 时 不 需要 比较 ,因此 假设 它 的 时 钟 频 率 
是 CPU; 的 1.35 倍 。 哪 一 个 CPU 更 快 ? 如果 CPU 的 时 钟 频 率 仅 仅 是 CPU 的 1.15 倍 ， 
哪 一 个 CPU 更 快 呢 ? 

解 (1) 占用 2 个 时 钟 周期 的 分 支 指令 占 总 指令 的 30%, 剩 下 的 指令 占用 1 个 时 钟 周 
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期 ,所 以 
CP 三 心 3 居 让 70 访 二 三 凡 3 
则 CPU, 性 能 为 
总 CPU 时 间 ; = IC X 1.3 X 时 钟 周期 时 间 ， 
根据 假设 ,有 
时 钟 周期 时 间 , = 1. 35 X 时 钟 周期 时 间 ， 

在 CPU, 中 没有 独立 的 比较 指令 ,所 以 CPU， 的 程序 量 为 CPU, 的 70% ,分 支 指令 的 比 
例 为 30%/70% 二 42.8%。 这 些 分 支 指令 占用 2 个 时 钟 周 期 ,而 剩 下 的 57.2% 的 指令 占用 
1 个 时 钟 周期 ,因此 

CPlIz = 0.428 X 2 二 0.572Xx1= 1.428 
因为 CPU; 不 执行 比较 , 故 
IC: = 0.7 XIC， 
因此 CPU; 性 能 为 
总 CPU 时 间 ， 一 IC。 Xx CPlI; x 时 钟 周期 时 间 ， 
一 0.7XIC X1.428X(1.35 X 时 钟 周期 时 间 ; ) 
一 1.349 X IC X 时 钟 周期 时 间 ， 

在 这 些 假设 之 下 ,尽管 CPU, 执行 指令 条 数 较 少 ,CPU, 因为 有 着 更 短 的 时 钟 周期 ,所 
以 比 CPU; 运行 更 快 。 

(2) 如 果 CPU 的 时 钟 频率 仅仅 是 CPU; 的 1. 15 倍 , 则 

时 钟 周期 时 间 。= 1. 15 x 时 钟 周 期 时 间 ， 
CPU; 的 性 能 为 
总 CPU 时 间 , 二 IC, X CPI Xx 时 钟 周期 时 间 ， 
一 0.7XIC X1.428X(1.15 X 时 钟 周期 时 间 ; ) 
一 1.15 X IC X 时 钟 周期 时 间 ， 

因此 CPU* 由 于 执行 更 少 指令 条 数 , 比 CPU, 运行 更 快 。 

4. 程序 的 局 部 性 原理 

程序 的 局 部 性 原理 (Principle of Locality) 是 人 们 经 常 加 以 利用 的 程序 属性 。 它 是 指 : 
程序 执行 时 所 访问 的 存储 器 地 址 不 是 随机 分 布 的 ,而 是 相对 地 簇 聚 。 现 在 常用 的 一 个 经 验 
规则 是 : 程序 执行 时 间 的 90% 都 是 在 执行 程序 中 10% 的 代码 。 数 据 访 问 也 具有 局 部 性 ,不 
过 其 局 部 性 弱 于 代码 访问 的 局 部 性 。 

局 部 性 包括 时 间 局 部 性 和 空间 局 部 性 。 时 间 局 部 性 是 指 : 程序 即将 用 到 的 信息 很 可 能 
就 是 目前 正在 使 用 的 信息 。 空 间 局 部 性 是 指 : 程序 即将 用 到 的 信息 很 可 能 与 目前 正在 使 用 
的 信息 在 空间 上 相 邻 或 者 临近 。 

利用 程序 的 局 部 性 原理 ,可 以 根据 程序 最 近 的 访问 情况 来 比较 准确 地 预测 将 要 访问 的 
指令 和 数据 。 凡 是 涉及 数据 重用 的 地 方 都 可 能 会 用 到 它 。 它 是 第 7 章 论述 的 存储 层次 的 
基础 。 


1.2.2 计算 机 系统 设计 者 的 主要 任务 
计算 机 系统 设计 者 的 任务 包括 指令 系统 的 设计 、 数 据 表 示 的 设计 、 功 能 的 组 织 .逻辑 设 
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计 以 及 其 物理 实现 等 。 设 计 一 个 计算 机 系统 大 致 要 完成 以 下 三 个 方面 的 工作 。 

1. 确定 用 户 对 计算 机 系统 的 功能 、 价 格 和 性 能 的 要 求 

总 的 来 说 ,计算 机 系统 设计 者 的 目标 是 设计 出 能 满足 用 户 的 功能 需求 有 较 长 的 生命 周 
期 且 又 具有 很 高 的 性 能 价格 比 的 系统 。 功 能 需求 是 根据 市 场 的 需要 以 及 所 设计 的 系统 的 应 
用 领域 来 确定 的 。 将 要 在 所 设计 的 计算 机 上 运行 的 应 用 软件 常常 对 功能 的 确定 起 支配 作 
用 。 如 果 这 些 应 用 软件 是 基于 某 一 种 指令 系统 的 ,那么 设计 者 就 必须 在 所 设计 的 系统 上 实 
现 这 个 指令 系统 。 如 果 在 所 面向 的 应 用 领域 中 ,有 一 类 专门 的 应 用 有 很 大 的 市 场 或 有 很 好 
的 前 景 ,那么 设计 者 就 必须 考虑 使 新 的 系统 能 适应 这 种 应 用 。 

具体 来 说 ,要 考虑 以 下 具体 的 功能 需求 。 

1) 应 用 领域 

首先 要 考虑 的 是 : 是 专用 还 是 通用 ? 是 面向 科学 计算 还 是 面向 商用 处 理 ? 如 果 是 专用 
的 ,就 需要 对 应 用 领域 进行 深入 的 研究 ,以 确定 什么 样 的 计算 任务 是 关键 的 ,具有 什么 计算 
特点 等 ,然后 对 其 进行 优化 设计 。 专 用 机 一 般 要 求 对 于 所 面向 的 应 用 领域 有 非常 高 的 计算 
能 力 。 通 用 机 对 各 种 应 用 都 适合 ,对 这 些 应 用 都 有 比较 高 的 性 能 ,但 对 哪 一 种 应 用 都 不 是 优 
化 的 。 科 学 计算 应 用 领域 对 浮 点 运算 能 力 要 求 很 高 ,而 商用 系统 则 要 求 支持 COBOL 语言 、 
数据 库 和 事务 处 理 。 

2) 软件 兼容 

软件 兼容 是 指 一 台 计 算 机 上 的 程序 不 加 修改 就 可 以 搬 到 另 一 台 计 算 机 上 正常 运行 。 兼 
容 性 方面 的 考虑 对 于 设计 新 的 计算 机 系统 有 很 大 的 影响 。 如 果 只 在 高 级 程序 设计 语言 层 兼 
容 , 则 给 了 设计 者 最 大 的 灵活 性 。 只 要 设计 相应 的 编译 器 就 可 以 解决 。 如 果 要 求 在 目标 代 
码 级 兼容 , 则 对 设计 者 的 限制 就 很 大 了 ,必须 在 新 的 系统 中 也 支持 原来 的 指令 系统 。 一 种 常 
用 的 方法 是 提供 兼容 运行 模式 ,通过 仿真 的 方法 来 实现 兼容 。 

3) 操作 系统 需求 

操作 系统 需求 方面 的 考虑 包括 地 址 空间 大 小 ,存储 管理 ,保护 等 。 从 系统 结构 上 对 操作 
系统 的 需求 提供 支持 ,是 很 重要 的 一 点 。 地 址 空间 大 小 会 限制 应 用 范围 ,存储 管理 要 确定 是 
采用 页 式 还 是 段 式 管理 等 ,在 保护 上 ,不同 的 操作 系统 和 应 用 程序 要 求 页 保护 或 段 保 护 。 

4) 标准 

确定 系统 中 哪些 方面 要 采用 标准 以 及 采用 什么 标准 。 如 浮 点 数 标准 ,已 存在 的 有 
IEEE.DEC IBM 等 格式 ;I/O 总 线 标 准 有 PCI、VME、SCSI 等 ;网 络 标准 有 Ethernet ATM 
等 ;程序 设计 语言 标准 有 ANSI C、ANSI COBOL 等 。 

2. 软 硬 件 功能 分 配 

确定 了 所 设计 的 计算 机 的 功能 要 求 后 , 接 下 来 就 是 要 考虑 如 何 优化 这 一 设计 。 衡 量 是 
否 优 化 的 最 通用 的 标准 包括 价格 和 性 能 。 所 以 ,我 们 经 常会 说 是 否 有 很 高 的 性 能 价格 比 。 

优化 设计 必须 考虑 软 硬 件 功 能 的 合理 分 配 。 由 于 软件 和 硬件 在 实现 功能 上 是 等 价 的 ， 
所 以 一 个 系统 只 要 具备 了 最 基本 的 硬件 .就 可 以 用 软件 的 方法 实现 所 有 其 他 的 功能 。 对 于 
任何 一 种 功能 来 说 ,用 软件 实现 的 优点 是 设计 容易 .修改 简单 ,而 且 可 以 减少 硬件 成 本 。 但 
其 缺点 是 所 实现 的 功能 的 速度 较 慢 。 用 硬件 实现 的 优点 是 速度 快 .性 能 高 ,但 它 修改 困难 ， 
灵活 性 差 。 所 以 优化 设计 时 要 在 软 硬 件 之 间 进 行 折 中 和 取舍 。 

根据 “以 经 常 性 事件 为 重点 ”的 原则 ,一 般 来 说 ,如 果 某 种 功能 或 操作 发 生 的 频 度 很 高 ， 
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一 般 就 用 硬件 的 方法 来 实现 。 例 如 ,在 用 于 科学 计算 的 计算 机 中 肯定 要 设置 专门 实现 浮 点 
运算 的 硬件 部 件 ,而 一 台 使 用 COBOL 语言 的 商用 计算 机 要 进行 大 量 的 十 进 制 数 和 字符 串 
的 操作 ,因此 一 般 都 会 设置 直接 实现 这 些 操作 的 指令 。 而 在 一 般 的 通用 计算 机 中 , 则 可 以 用 
软件 来 实现 这 些 操作 。 

3. 设计 出 生命 周期 长 的 系统 结构 

一 种 成 功 的 系统 结构 应 该 有 较 长 的 生命 周期 , 它 应 该 能 经 得 住 软 硬 件 技术 的 发 展 和 应 
用 的 变化 。 因 此 ,设计 者 要 特别 注意 计算 机 应 用 和 计算 机 技术 的 发 展 趋势 ,设计 出 具有 一 定 
前 瞻 性 的 系统 结构 ,以 使 得 它 具 有 较 长 的 生命 周期 。 


1.2.3 计算 机 系统 设计 的 主要 方法 


从 多 级 层次 结构 出 发 ,计算 机 系统 可 以 有 “由 上 往 下 *“ 由 下 往 上 ”和 “从 中 间 开 始 ” 三 种 
不 同 的 设计 方法 。 

1.“ 由 上 往 下 "(top-down) 设 计 

“由 上 往 下 ”设计 是 从 层次 结构 中 的 最 上 面 一 级 开始 的 , 逐 层 往 下 设计 各 层 机 器 。 首 先 
确定 面 对 使 用 者 的 那 级 机 器 的 基本 特征 、 数 据 类 型 和 格式 、 基 本 命令 等 。 然 后 再 逐 级 往 下 设 
计 , 每 级 都 考虑 如 何 优 化 上 一 级 的 实现 ,如 图 1.4 所 示 。 
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+， 高 级 语言 虚 扫 第 二 步 : 设计 或 选择 面向 这 种 
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图 1.4 “由 上 往 下 ?设计 


这 样 设计 的 计算 机 系统 完全 是 面向 特定 的 应 用 优化 设计 的 ,所 以 这 种 方法 很 适合 于 专 
用 机 的 设计 ,而 不 适合 通用 机 的 设计 。 当 应 用 对 象 或 范围 改变 时 , 软 硬 件 都 会 变 得 很 不 适 
应 ,从 而 使 系统 的 性 能 和 效率 急剧 下 降 。 

2.“ 由 下 往 上 ”(bottom-up) 设 计 

“由 下 往 上 ”设计 是 从 层次 结构 的 最 下 面 一 级 开始 , 逐 层 往 上 设计 各 层 的 机 器 。 它 根据 
当前 的 硬件 技术 条 件 ,特别 是 器 件 水 平 , 参 照 或 吸收 已 有 的 各 种 机 器 的 功能 和 特点 , 先 把 微 
程序 机 器 级 和 传统 机 器 级 设计 出 来 ,然后 再 为 不 同 的 应 用 装配 不 同 的 操作 系统 和 编译 器 等 。 
这 种 设计 方法 在 计算 机 发 展 的 早期 被 采用 得 比较 多 ,因为 那 时 的 硬件 技术 水 平 较 低 ,而 且 硬 
件 非常 昂贵 。 采 用 这 种 方法 时 ,软件 技术 完全 处 于 被 动 状态 .这 会 造成 软件 和 硬件 的 脱节 ， 
使 整个 系统 的 效率 降低 。 在 硬件 技术 飞速 发 展 .而 软件 技术 发 展 相对 缓慢 的 今天 ,这 种 设计 
方法 已 经 难以 适应 计算 机 系统 的 设计 要 求 . 所 以 很 少 被 采用 了 。 
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3.“ 从 中 间 开 始 ”(middle-out) 设 计 

软 硬 件 设计 分 离 和 脱节 是 上 述 “ 由 上 往 下 ”和 “由 下 往 上 ”设计 方法 的 主要 缺点 。 要 解决 
这 个 问题 ,就 必须 综合 考虑 软 硬 件 的 分 工 , 从 中 间 开 始 设计 。 这 里 的 “中 间 ” 是 指 层次 结构 中 
的 软 硬 件 的 交界 面 ,目前 一 般 是 在 传统 机 器 语言 机 器 级 与 操作 系统 机 器 级 之 间 , 如 图 1.5 所 
示 。 采 用 这 种 方法 时 ,首先 要 进行 软 硬 件 功能 分 配 , 确 定好 这 个 界面 。 然 后 从 这 个 界面 开 
始 ,软件 设计 者 开始 往 上 设计 操作 系统 汇编 ,编译 系统 等 ,硬件 设计 者 开始 往 下 设计 传统 机 
器 级 、 微 程序 机 器 级 等 。 软 件 和 硬件 并 行 设计 可 以 缩短 设计 周期 ,设计 过 程 中 可 以 交流 协 
调 ,是 一 种 交互 式 的 \ 很 好 的 设计 方法 。 

进行 软 硬 件 功能 分 配 时 , 既 要 考虑 所 要 采用 的 硬件 和 器 件 ,又 要 考虑 应 用 软件 所 需要 的 
算法 和 数据 结构 ,然后 对 这 个 界面 进行 详尽 的 功能 描述 ,确定 哪些 功能 由 硬件 实现 ,哪些 功 
能 由 软件 实现 。 同 时 还 要 考虑 好 硬件 该 对 操作 系统 、 编 译 系统 提供 什么 样 的 支持 。 
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图 1.5 “从 中 间 开 始 "设计 


1.3 计算 机 系统 的 性 能 评测 


为 了 更 好 地 设计 和 使 用 计算 机 ,我 们 经 常 需要 对 计算 机 系统 的 性 能 进行 评测 。 那 么 怎 
样 才能 客观 、 公 正 地 评价 计算 机 系统 的 性 能 呢 ? 有 哪些 评测 方法 呢 ? 这 就 是 本 节 所 要 讨论 
的 问题 。 

1. 执行 时 间 和 香 吐 率 

如 何 评测 一 台 计 算 机 的 性 能 ,与 测试 者 看 问题 的 角度 有 关 。 对 于 桌面 台式 机 来 说 ,用 户 
说 计算 机 很 快 ,是 指 它 执 行 单个 程序 所 花 的 时 间 很 少 ;而 对 于 数据 处 理 中 心 的 管理 员 来 说 ， 
计算 机 很 快 则 是 指 它 在 单位 时 间 里 能 够 完成 的 任务 很 多 。 前 者 关心 的 是 单个 程序 的 执行 时 
间 (Execution Time) ,而 后 者 关心 的 则 是 吞吐 率 (throughput) 。 

在 比较 不 同 的 设计 方案 时 ,我 们 经 常 需要 对 两 台 计算 机 的 性 能 进行 比较 。 假 设 这 两 台 
计算 机 为 X 和 YY,“X 比 Y 快 "的 意思 是 : 对 于 给 定 的 任务 ,X 的 执行 时 间 比 Y 的 执行 时 间 
少 。 通常 *X 的 性 能 是 Y 的 倍 " 是 指 


立 的 执行 时 间 _， 
X 的 执行 时 间 
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由 于 执行 时 间 与 性 能 成 反比 ,所 以 上 式 就 变 成 


1 
YY 的 执行 时 间 _ 性 能 _ 性 能 x 
X 的 执行 时 间 ”1 ”性 能 y 
性 能 x 

如 果 说 “X 的 吞吐 率 是 Y 的 1.5 倍 ”, 就 是 指 单位 时 间 内 X 完成 的 任务 数 是 Y 完成 的 任 
务 数 的 1.5 倍 。 

目前 广泛 采用 的 一 致 和 可 靠 的 性 能 评价 方法 ,是 以 真实 程序 的 执行 时 间 来 衡量 的 。 实 际 
上 ,如果 不 以 执行 时 间 为 衡量 标准 或 没有 使 用 真实 程序 , 则 可 能 导致 错误 的 性 能 评价 结论 。 

执行 时 间 可 以 有 多 种 定义 。 最 直观 的 定义 是 计算 机 完成 某 一 任务 所 花费 的 全 部 时 间 , 包 
括 磁盘 访问 .存储 器 访问 .输入 输出 .操作 系统 开销 等 。 在 多 任务 系统 中 , 当 一 个 程序 在 等 待 
1/O 时 ,CPU 可 以 转 去 执行 男 一 个 程序 ,从 而 提高 系统 的 运行 效率 。 但 这 有 可 能 延长 单个 程序 
从 开始 执行 到 结束 的 时 间 。 如 果 把 这 一 点 考虑 进去 ,就 应 该 用 “CPU 时 间 ” 这 个 指标 。 它 是 指 
CPU 执行 给 定 的 程序 所 花费 的 时 间 , 不 包含 1/O 等 待 时 间 以 及 运行 其 他 程序 的 时 间 。 很 明 
显 , 用 户 看 到 的 执行 时 间 是 程序 完成 任务 所 花费 的 全 部 时 间 ,而 不 仅仅 是 CPU 时 间 。 

CPU 时 间 还 可 细 分 为 用 户 CPU 时 间 及 系统 CPU 时 间 , 前 者 表示 用 户 程序 所 耗费 的 
CPU 时 间 , 后 者 表示 用 户 程序 运行 期 间 操作 系统 所 耗费 的 CPU 时 间 。 

2. 基准 测试 程序 

用 于 测试 和 比较 性 能 的 基准 测试 程序 (benchmark ) 的 最 佳 选 择 是 真实 的 应 用 程序 (如 
编译 器 )。 以 前 有 些 测试 方法 不 是 采用 真实 的 应 用 程序 ,而 是 采用 简化 了 的 程序 ,例如 : 

核心 测试 程序 一 一 从 真实 程序 中 选 出 的 关键 代码 段 构成 的 小 程序 。 

小 测试 程序 简单 的 只 有 几 十 行 的 小 程序 ,如 皇后 问题 ,快速 排序 等 。 也 可 以 是 测试 
者 自己 编写 的 针对 某 种 特定 指标 的 小 测试 程序 。 

合成 的 测试 程序 一 一 人 工 合成 出 来 的 程序 。 为 了 使 这 种 程序 的 行为 和 表现 比较 像 应 用 
程序 ,一 般 是 先 对 大 量 的 应 用 程序 中 的 操作 进行 统计 ,得 到 各 种 操作 的 比例 ,然后 再 按 这 个 
比例 编写 出 测试 程序 。Whetstone 与 Dhrystone 是 最 流行 的 合成 测试 程序 。 

从 测试 性 能 的 角度 来 看 ,上 述 这 三 种 测试 程序 现在 已 经 不 可 信 了 。 一 个 原因 是 这 些 程 
序 比 较 小 ,具有 片面 性 ; 另 一 个 原因 是 系统 结构 设计 者 和 编译 器 的 设计 者 可 以 “合谋 ?把 他 们 
的 计算 机 面向 这 些 测 试 程序 进行 优化 设计 ,使 得 该 计算 机 显得 性 能 更 高 。 而 对 于 真实 程序 
来 说 ,就 很 难 这 样 做 “手脚 ”了 。 

性 能 测试 的 结果 除了 和 采用 什么 测试 程序 有 关 以 外 ,还 和 在 什么 条 件 下 进行 测试 有 关 。 
为 了 使 得 其 计算 机 测 出 更 高 的 性 能 ,制造 商 测试 者 可 能 会 在 编译 时 设置 一 些 与 测试 程序 相 
关 的 标志 ,而 这 些 标志 的 设置 对 于 许多 其 他 程序 来 说 是 非法 的 ,或 者 会 使 其 他 程序 的 性 能 下 
降 。 为 了 避免 出 现 这 样 的 情况 ,也 为 了 使 测试 结果 更 有 说 服 力 ,基准 测试 程序 设计 者 经 常 这 
样 要 求 制 造 商 : 

Q@ 采用 一 种 编译 器 ; 

@ 对 同一 种 语言 的 程序 都 采用 相同 的 一 组 编译 标志 。 

此 外 ,还 有 一 个 问题 ,就 是 是 否 允许 修改 测试 程序 的 源 程序 ,有 三 种 不 同 的 处 理 方法 : 

(1) 不 允许 修改 ; 

(2) 允许 修改 ,但 因 测 试 程序 很 复杂 或 者 很 大 ,几乎 是 无 法 修改 。 例 如 ,数据 库 测试 程 
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序 是 建立 在 数据 库 系统 之 上 的 。 显 然 数据 库 软 件 公 司 一 般 不 会 针对 具体 某 一 种 计算 机 进行 
优化 设计 。 

(3) 允许 修改 ,只 要 保证 最 后 输出 的 结果 相同 。 

为 了 能 比较 全 面 地 反映 计算 机 在 各 个 方面 的 处 理性 能 ,通常 采用 一 整套 测试 程序 。 这 
组 程序 称 为 基准 测试 程序 套件 (Benchmark Suites) , 它 是 由 各 种 不 同 的 真实 应 用 程序 构成 
的 。 采 用 测试 套件 的 一 个 主要 优点 是 不 同 的 测试 程序 之 间 可 以 互相 弥补 ,一 个 测试 程序 的 
弱点 通常 会 因 其 他 测试 程序 的 存在 而 变 得 不 那么 明显 。 基 准 测试 程序 套件 的 目标 是 尽 可 能 
全 面 地 反映 两 台 计 算 机 的 相对 性 能 。 

目前 最 成 功 和 最 常见 的 测试 程序 套件 是 SPEC 系列 , 它 是 由 美国 的 标准 性 能 测试 公司 
(Standard Performance Evaluation Corporation,SPEC) 创 建 的 。 它 起 源 于 20 世纪 80 年 代 
末 , 当 时 的 目的 是 为 工作 站 提供 更 好 的 基准 测试 程序 。 此 后 , 随 着 计算 机 技术 及 其 应 用 的 发 
展 ,就 陆续 设计 出 了 适合 于 各 种 类 型 应 用 的 基准 测试 程序 套件 。 关 于 所 有 这 些 套件 及 相关 
文件 , 见 www. spec. org。SPEC 是 基于 UNIX 操作 系统 的 ,虽然 后 面 我 们 主要 关心 SPEC， 
但 实际 上 还 有 许多 用 于 运行 Windows 操作 系统 的 个 人 计算 机 的 基准 测试 程序 。 

桌面 计算 机 的 基准 测试 程序 套件 可 以 分 为 两 大 类 : 处 理 器 性 能 测试 程序 和 图 形 性 能 测 
试 程序 。SPEC 最 早 创建 的 SPEC89 是 用 于 测试 处 理 器 性 能 的 。SPEC89 后 来 演化 出 了 4 
个 版 本 : SPEC92 .SPEC95 、SPEC2000 和 SPEC CPU2006。SPEC89 只 有 10 个 程序 (4 个 整 
数 程序 ,6 个 浮 点 程序 ) ,SPEC CPU2006 有 29 个 程序 ,其 中 整数 程序 12 个 (CINT2006) , 浮 
点 程序 17 个 (CFP2006)。 

其 实 , 在 SPEC 测试 程序 套件 中 ,除了 含有 测试 CPU 的 测试 程序 外 ,还 包括 其 他 一 系列 
测试 程序 组 件 , 说 明 如 下 。 

SPECSFS: 用 于 NFS( 网 络 文件 系统 ) 文 件 服务 器 的 测试 程序 。 它 不 仅 测试 处 理 器 的 
性 能 ,而 且 测 试 W/O 系统 的 性 能 。 它 重点 测试 吞吐 率 。 

SPECWeb: Web 服务 器 测试 程序 。 它 模拟 多 个 客户 请 求 访问 服务 器 中 的 动态 和 静态 
页 面 以 及 向 服务 器 上 传 数据 的 情况 。 

SPECviewperf: 用 于 测试 图 形 系统 支持 OpenGL 库 的 性 能 。 

SPECapc: 用 于 测试 图 形 密集 型 应 用 的 性 能 。 

3. 性 能 比较 

表 1.1 左 上 部 区 域 列 出 了 两 个 程序 在 三 台 计 算 机 A、B、C 上 的 执行 时 间 。 


表 1.1 两 个 程序 在 3 台 计 算 机 上 的 执行 时 间 


机 器 A 机 器 BB 机 器 C WU) W(2) W(3) 
程序 1 1.00 10. 00 20. 00 0. 50 0. 909 0. 999 
程序 2 1000. 00 10. 00 20. 00 0. 50 0. 091 0. 001 
加 权 算术 平均 值 A, (1) 500. 50 10. 00 20. 00 
加 权 算术 平均 值 A, (2) 91. 91 10. 00 20. 00 
加 权 算术 平均 值 A, (3) 2. 00 10. 00 20. 00 


注 : W(1)、W(2)、W(3) 为 三 种 加 权 方案 。 
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如 何 比较 这 三 台 计 算 机 的 性 能 ? 

从 表 1.1 可 以 得 出 : 

A 机 执行 程序 1 的 速度 是 B 机 的 10 售 ; 

B 机 执行 程序 2 的 速度 是 A 机 的 100 信 ; 

A 机 执行 程序 1 的 速度 是 C 机 的 20 倍 ; 

C 机 执行 程序 2 的 速度 是 A 机 的 50 信 ; 

B 机 执行 程序 1 的 速度 是 C 机 的 2 倍 ; 

B 机 执行 程序 2 的 速度 是 C 机 的 2 倍 。 

虽然 上 面 这 些 说 法 都 是 正确 的 ,但 并 不 能 综合 地 反映 这 三 台 计 算 机 之 间 的 性 能 比较 。 

为 了 能 更 好 地 比较 计算 机 的 性 能 ,可 以 采用 以 下 三 种 方法 。 

1) 总 执行 时 间 

我 们 可 以 直接 用 计算 机 执行 所 有 测试 程序 的 总 时 间 来 进行 比较 。 对 于 表 1. 1 中 的 例 
子 , 可 以 得 出 : 

B 机 执行 程序 1 和 程序 2 的 速度 是 A 机 的 50. 05 倍 ; 

C 机 执行 程序 1 和 程序 2 的 速度 是 A 机 的 25. 025 倍 ; 

B 机 执行 程序 1 和 程序 2 的 速度 是 C 机 的 2 信 。 

人 们 还 经 常 采 用 平均 执行 时 间 来 代替 总 执行 时 间 。 平 均 执行 时 间 是 各 测试 程序 执行 时 
间 的 算术 平均 值 , 即 

Su 一 二 人 

其 中 ,T; 是 第 i 个 测试 程序 的 执行 时 间 ;n 是 测试 程序 组 中 程序 的 个 数 。 

进一步 ,如 果 各 程序 在 测试 程序 组 中 所 占 的 比重 不 同 ,就 可 以 用 加 权 执 行 时 间 来 比较 。 
加 权 执 行 时 间 是 各 测试 程序 执行 时 间 的 加 权 平 均值 , 即 


As = DWT, (1.D 
i=1 


其 中 ,W; 是 第 i 个 测试 程序 在 测试 程序 组 中 所 占 的 比重 ， 3 Wi = 1; T; 是 该 程序 的 执行 


时 间 。 

对 于 表 1. 1 中 的 例子 . 表 的 右上 部 区 域 列 出 了 在 每 一 组 的 测试 中 两 个 测试 程序 的 权 值 ， 
根据 这 些 权 值 , 利 用 式 (1.1) 可 计算 出 三 台 计 算 机 所 对 应 的 加 权 执 行 时 间 , 如 表 1. 1 的 左下 
部 区 域 所 示 。 

2) 调和 平均 值 法 

如 果 性 能 是 用 速度 (如 MFLOPS) 表 示 的 , 则 可 以 采用 调和 平均 值 法 进行 比较 。 调 和 平 
均值 法 的 公式 为 


Hm = (1.2) 
> 读 > 他 
其 中 ,R; 表示 由 个 程序 组 成 的 工作 负荷 中 执行 第 ; 个 程序 的 速度 ,Ri 二 1/T;;T; 为 第 i 个 


程序 的 执行 时 间 。 
如 果 考 虑 工作 负荷 中 各 程序 不 会 以 相等 的 比例 出 现 , 则 可 以 使 用 加 权 调 和 平均 值 公 式 。 
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(> 二] (Sw) i 
3) 几何 平均 值 法 
几何 平均 值 法 的 基本 思想 来 源 于 性 能 规格 化 的 方法 . 即 以 某 台 计算 机 的 性 能 作为 参考 


标准 ,其 他 计算 机 性 能 则 除 以 该 参考 标准 而 获得 一 个 比值 。 如 果 比 值 相 同 , 则 可 认为 这 些 计 


算 机 具有 相同 的 性 能 。 
Gn=n /和 六 ;三 % 全 六 (1.4) 


几何 平均 值 的 公式 为 
式 中 ,R; 表示 由 个 程序 组 成 的 工作 负荷 中 执行 第 i 个 程序 的 速度 ,Ri 二 1/T;; [| 表示 连 乘 。 
如 果 考 虑 工作 负荷 中 各 程序 不 会 以 相等 的 比例 出 现 , 则 可 以 使 用 加 权 几 何平 均值 公式 。 


Gs = [[ (RO™ = (RO™ xX (ROW XX (RI™ (15) 
jl 
Gam 表示 法 有 一 个 很 好 的 特性 , 即 
7 (到 
| (1.6) 
Cn (yi) Dy 


即 几何 平均 值 的 比 等 于 比 的 几何 平均 值 ,因此 不 论 选 哪 一 台 计 算 机 作 参 考 机 ,G, 均 能 
保持 比较 结果 的 一 致 性 。 而 As 和 HH 则 没有 这 样 的 特性 ,因而 在 做 比较 时 不 如 G 方便 。 


1.4 计算 机 系统 结构 的 发 展 


1.4.1 汉 . 诺 依 曙 结 构 及 其 改进 


最 早 的 存储 程序 式 计算 机 是 美 籍 数 学 家 汉 ，。 诺 依 曼 (von Neumann) 等 人 于 1946 年 总 
结 并 提出 来 的 , 它 由 运算 器 ,控制 器 ,存储 器 ,输入 设备 和 输出 设备 5 部 分 构成 ,通常 称 为 
冯 ，。 诺 依 曼 结构 计算 机 ,如 图 1.6 所 示 。 


运算 器 
(ALU) 


输出 出 


指令 流 控制 流 


图 1.6 存储 程序 计算 机 的 结构 


存储 程序 原理 的 基本 点 是 指令 驱动 。 程 序 预 先 存放 在 计算 机 存储 器 中 ,计算 机 一 旦 启 
动 , 就 能 按照 程序 指定 的 逻辑 顺序 执行 这 些 程序 ,自动 完成 由 程序 所 描述 的 处 理工 作 。 

虽然 与 汉 ，。 诺 依 曼 结构 相 比 ,现代 的 计算 机 系统 结构 已 经 发 生 了 很 大 的 变化 ,但 就 其 结 
构 原理 来 说 , 占 主流 地 位 的 仍 是 改进 了 的 冯 。 诺 依 曼 结构 计算 机 。 
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冯 “' 诺 依 曼 结 构 的 主要 特点 如 下 。 

(1) 计算 机 以 运算 器 为 中 心 。 输 入 输出 设备 与 存储 器 之 间 的 数据 传送 都 经 过 运算 器 ; 
存储 器 、 输 入 输出 设备 的 操作 ,并 且 它 们 之 间 的 联系 都 由 控制 器 集中 控制 。 

(2) 在 存储 器 中 ,指令 和 数据 同等 对 待 。 指 令 和 数据 一 样 可 以 进行 运算 , 即 由 指令 组 成 
的 程序 是 可 以 修改 的 。 

(3) 存储 器 是 按 地 址 访问 , 按 顺 序 线性 编 址 的 一 维 结构 ,每 个 单元 的 位 数 是 固定 的 。 

(4) 指令 的 执行 是 顺序 的 , 即 一 般 是 按照 指令 在 存储 器 中 存放 的 顺序 执行 的 。 程 序 
的 分 支 由 转移 指令 实现 。 由 程序 计数 器 (PC) 指 明 当 前 正在 执行 的 指令 在 存储 器 中 的 
地 址 。 

(5) 指令 由 操作 码 和 地 址 码 组 成 。 操 作 码 指明 本 指令 的 操作 类 型 ,地 址 码 指 明 操 作 数 
地 址 和 存放 运算 结果 的 地 址 。 操 作 数 的 类 型 由 操作 码 决定 ,操作 数 本 身 不 能 判定 是 何 种 数 
据 类 型 。 

(6) 指令 和 数据 均 以 二 进 制 编码 表示 ,采用 二 进 制 运算 。 

后 来 的 计算 机 针对 冯 。 诺 依 曼 结构 的 不 足 之 处 进行 了 不 断 的 改进 ,在 系统 结构 方面 有 
了 很 大 的 进展 ,主要 包括 以 下 几 个 方面 。 

1) 对 输入 输出 方式 的 改进 

汉 ， 诺 依 曼 结构 以 运算 器 为 中 心 ,所 有 部 件 的 操 ”输入 和 4 方 式 DMA 《局 彼 人 
作 都 由 控制 器 集中 控制 。 这 使 得 输入 输出 操作 与 运算 和 
操作 只 能 品行 进行 ,运算 器 成 为 了 整个 系统 的 瓶颈 。 Vo 处 理 机 {济济 理 机 
为 了 克服 这 一 缺陷 ,人 们 先后 提出 了 多 种 输入 输出 方 图 1.7 各 种 输入 输出 方式 
式 , 如 图 1.7 所 示 。 

图 1.7 中 从 上 到 下 ,是 把 越 来 越 多 的 输入 输出 管理 工作 从 CPU 中 分 离 出 来 “下 放 ” 
给 新 设置 的 硬件 去 完成 。 在 程序 等 待 方式 中 ,CPU 要 不 断 查 询 外 部 设备 (简称 外 设 ) 是 否 
已 完成 操作 ,并 等 待 它 完成 后 才能 进行 后 续 的 处 理 。 后 来 ,采用 了 程序 中 断 的 方式 ,在 这 
种 情况 下 ,CPU 执行 到 一 条 输入 输出 操作 指令 后 ,不 必 等 待 外 部 设备 回答 ,可 以 继续 执行 
后 续 的 指令 。 等 到 外 部 设备 完成 操作 后 ,再 向 CPU 发 中 断 请 求 ,CPU 响应 该 中 断 请 求 ， 
并 进行 进一步 的 输入 输出 操作 。 这 样 就 可 以 使 CPU 与 外 部 设备 在 一 定 程度 上 并 行 工 作 ， 
并 且 可 以 实现 多 种 外 部 设备 同时 工作 。 不 过 ,程序 中 断 方式 并 没有 改变 以 运算 器 为 中 心 
的 缺陷 。 

后 来 ,出 现 了 直接 存储 器 访问 (Direct Memory Access. DMA) 方 式 。 这 是 在 外 设 与 存 
储 器 之 间 建 立 数 据 通路 ,使 它们 可 以 直接 传送 数据 .而 不 必 经 过 运算 器 的 方式 。 为 了 实现 这 
种 方式 ,需要 在 主 存 和 外 设 之 间 增 加 DMA 控制 器 。 当 要 进行 输入 输出 操作 时 ,CPU 将 
DMA 控制 器 中 的 寄存 器 设置 好 初始 参数 后 , 仍 可 继续 执行 其 后 续 指 令 , 而 外 设 与 主 存 的 信 
息 交 换 则 由 DMA 控制 进行 。 当 DMA 完成 所 指定 的 一 批 数据 的 传送 后 , 才 向 CPU 发 结束 
信号 ,使 CPU 进行 一 些 后 续 处 理工 作 。 

采用 DMA 方式 ,每 传送 完 一 批 数据 就 要 中 断 CPU 一 次 。 如 果 进 一 步 , 则 使 该 部 件 能 
自己 控制 完成 输入 输出 的 大 部 分 工作 ,从 而 使 CPU 进一步 摆脱 用 于 管理 .控制 IO 系统 的 
沉重 负担 ,这 就 出 现 了 1O 处 理 机 方式 。1/O 处 理 机 几乎 把 控制 输入 输出 操作 和 传送 信息 
的 所 有 功能 都 从 CPU 中 剥离 出 来 。I/O 处 理 机 方式 有 通道 方式 和 外 围 处 理 机 方式 两 种 。 
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2) 采用 并 行 处 理 技术 

如 何 挖掘 传统 计算 机 中 的 并 行 性 ,一 直 是 计算 机 设计 者 努力 的 方向 。 可 以 在 不 同 的 级 
别 采用 并 行 技术 ,例如 微 操作 级 .指令 级 线程 级 .进程 级 、 任 务 级 等 。 先 后 出 现 了 向 量 计算 
机 、 阵 列 处 理 机 、 多 处 理 机 、 大 规模 并 行 处 理 机 等 各 种 并 行 处 理 计算 机 。 

3) 存储 器 组 织 结构 的 发 展 

按 地 址 访问 的 存储 器 具有 结构 简单 、 价 格 便宜 、. 存 取 速 度 快 等 优点 。 但 是 在 数据 处 理 
时 ,往往 需要 按 内 容 查找 。 虽 然 在 按 地 址 访问 的 存储 器 中 可 以 通过 软件 来 完成 查找 ,但 由 于 
访问 存储 器 的 次 数 较 多 而 影响 了 计算 机 系统 的 性 能 。 按 内 容 访问 的 相 联 存储 器 (Content 
Addressed Memory,CAMI) 把 查找 .比较 的 操作 交 由 存储 器 硬件 完成 。 如 果 让 相 联 存储 器 
除了 完成 信息 检索 任务 外 ,还 能 进行 一 些 算术 逻辑 运算 ,就 构成 了 以 相 联 存储 器 为 核心 的 相 
联 处 理 机 。 

另外 ,为 了 减少 程序 运行 过 程 中 访问 存储 器 的 次 数 和 提高 访问 存储 器 的 速度 ,人 们 在 
CPU 中 设置 了 通用 寄存 器 组 ,并 在 CPU 和 主 存 之 间 设 置 了 高 速 缓冲 存储 器 (Cache) 。 

4) 指令 系统 的 发 展 

指令 系统 (Instruction Set,IS) 是 传统 机 器 程序 员 所 看 到 的 计算 机 的 主要 属性 。 跟 以 前 
一 样 ,现代 计 算 机 的 指令 仍 是 由 操作 码 和 地 址 码 两 部 分 组 成 的 ,但 在 指令 系统 的 功能 和 复杂 
度 上 ,在 寻 址 方式 .指令 格式 等 方面 都 有 了 很 大 的 发 展 。 这 种 发 展 有 两 个 方向 。 一 方面 , 随 
着 硬件 技术 的 发 展 , 越 来 越 多 的 功能 交 由 硬件 实现 。 在 20 世纪 70 年 代 到 80 年 代 的 计算 机 
系统 中 ,指令 的 条 数 可 达 300 一 500 条 ,甚至 更 多 , 寻 址 方式 和 指令 格式 的 种 类 也 很 多 。 我 们 
称 这 种 计算 机 为 复杂 指令 集 计 算 机 (Complex Instruction Set Computer,CISC) 。 另 一 个 方 
向 是 朝 精 简 指令 集 的 方向 发 展 ,1979 年 D. A，Patterson 等 人 提出 了 精简 指令 集 计算 机 
(Reduced Instruction Set Computer, RISC) 的 思想 ,把 指令 系统 设计 成 只 包含 那些 使 用 频率 
高 的 少量 指令 ,而 且 指令 格式 和 寻 址 方式 也 很 简单 。 按 照 这 个 原则 设计 的 计算 机 称 为 精简 
指令 集 计 算 机 (RISC)。RISC 的 思想 和 技术 已 经 成 为 当代 计算 机 设计 的 重要 技术 之 一 。 


1.4.2 软件 对 系统 结构 的 影响 


软件 对 系统 结构 有 多 方面 的 影响 。 下 面 只 讨论 系统 结构 设计 要 注意 解决 软件 的 可 移植 
性 问题 。 第 2 章 中 将 讨论 如 何 面 向 高 级 语言 和 操作 系统 进行 优化 设计 的 问题 。 

由 于 软件 相对 于 硬件 的 成 本 越 来 越 高 ,而 且 软 件 的 生产 率 又 很 低 , 软 件 的 排 错 比 编写 还 
难 。 因 此 已 经 积累 的 大 量 成 熟 的 系统 软件 和 应 用 软件 是 一 种 很 有 价值 的 “财富 *。 当 一 家 公 
司 推出 新 型 号 的 计算 机 时 ,当然 希望 这 些 软件 能 继续 在 新 型 号 的 计算 机 上 使 用 。 这 就 要 求 
该 计算 机 能 支持 软件 的 可 移植 性 。 可 移植 性 是 指 一 个 软件 可 以 不 经 修改 或 者 只 需 少量 修改 
就 可 以 由 一 台 计 算 机 移植 到 另 一 台 计 算 机 上 运行 ,差别 只 是 执行 时 间 不 同 。 在 这 种 情况 下 ， 
我 们 称 这 两 台 计 算 机 是 软件 兼容 (Software Compatable) 的 。 实 现 可 移植 性 的 常用 方法 有 
三 种 : 统一 高 级 语言 .采用 系列 机 、 模 拟 和 仿真 。 

1. 统一 高 级 语言 

由 于 高 级 语言 是 面向 问题 和 算法 的 ,与 计算 机 的 具体 结构 关系 不 大 ,如 果 各 计算 机 能 采 
用 同一 种 高 级 语言 ,那么 用 这 种 语言 编写 的 应 用 软件 和 系统 软件 (或 部 分 系统 软件 ) 的 可 移 
植 问 题 就 解决 了 。 因 此 ,采用 统一 的 高 级 语言 来 实现 软件 移植 是 一 种 理想 的 方法 。 这 种 统 
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一 的 高 级 语言 可 以 是 新 设计 的 完全 通用 的 高 级 语言 ,也 可 以 是 已 有 的 高 级 语言 中 的 一 种 。 
这 种 方法 可 以 解决 所 有 计算 机 之 间 的 软件 移植 ,而 不 管 其 系统 结构 有 多 大 的 区 别 。 

Java 语言 是 一 个 成 功 的 范例 ,但 其 他 高 级 语言 就 难以 统一 了 ,不 同 计算 机 上 的 同一 种 
语言 也 不 是 完全 相同 的 ,经 常 有 部 分 “方言 存在 。 另 外 ,也 不 是 所 有 软件 都 能 拿 到 源 程 序 
的 。 所 以 ,这 种 方法 实际 上 还 是 有 较 大 难度 的 。 

2. 采用 系列 机 

如 前 所 述 ,系列 机 是 指 由 同一 厂家 生产 的 具有 相同 的 系统 结构 ,但 具有 不 同 组 成 和 实现 
的 一 系列 不 同型 号 的 计算 机 。 例 如 ,IBM370 系列 有 115、125、135、145、158、168 等 一 系列 
从 低速 到 高 速 的 各 型 号 计算 机 。 这 些 计 算 机 具有 相同 的 指令 系统 ,但 在 低档 机 上 ,指令 的 分 
析 和 指令 的 执行 是 顺序 进行 的 ,而 在 高 档 机 上 则 采用 重 等 .流水 等 并 行 的 处 理 方式 。 从 计算 
机 语言 程序 员 来 看 ,各 档 计 算 机 都 具有 32 位 字 长 ,但 从 低档 机 到 高 档 机 ,其 数据 通道 的 宽度 
分 别 为 8 位 、16 位 、32 位 。 

系列 机 的 关键 是 要 先 对 软 / 硬 件 分 工 进 行 充分 的 考虑 , 先 设计 好 一 种 系统 结构 ,之 后 软 
件 设 计 者 按 此 设计 软件 ,硬件 设计 者 则 根据 速度 .性 能 、 价 格 等 不 同 的 要 求 , 选 择 不 同 的 器 
件 , 采 用 不 同 的 硬件 技术 和 组 成 .实现 技术 ,研制 并 提供 不 同 档 次 的 计算 机 。 系 列 机 能 较 好 
地 解决 了 软件 开发 要 求 系统 结构 相对 稳定 与 器 件 、 硬 件 技术 迅速 发 展 的 矛盾 。 

由 于 从 机 器 语言 程序 员 的 角度 来 看 ,同一 系列 的 各 档 计算 机 的 属性 都 是 相同 的 ,因此 按 
这 个 属性 编制 或 编译 生成 的 二 进 制 代码 都 能 不 加 修改 地 通用 于 各 档 计 算 机 。 

系列 机 的 软件 兼容 有 4 种: 向 上 兼容 .向 下 兼容 .向 前 兼容 .向 后 兼容 ,如 图 1. 8 所 示 。 
向 上 (下 ) 兼 容 指 的 是 按 某 档 计算 机 编制 的 程序 ,不 加 修改 就 能 运行 于 比 它 高 ( 低 ) 档 的 计算 
机 。 向 后 (前 ?兼容 是 指 按 某 个 时 期 投入 市 场 的 某 种 型 号 计算 机 编制 的 程序 ,不 加 修改 就 能 
运行 于 在 它 之 后 (前 ) 投 入 市 场 的 计算 机 。 为 了 使 计算 机 系统 结构 能 够 很 好 地 适应 应 用 需求 
的 发 展 ,并 不 一 定 要 求 系列 机 能 实现 所 有 的 4 种 兼容 ,只 要 保证 向 上 兼容 和 向 后 兼容 就 可 以 
了 。 有 时 向 上 兼容 也 可 以 不 实现 (如 在 低档 计算 机 上 增加 了 面向 事务 处 理 的 指令 ) ,而 仅 实 
现 向 后 兼容 。 向 后 兼容 是 肯定 要 做 到 的 , 它 是 系列 机 的 根本 特征 。 
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图 1.8 兼容 性 示意 图 


还 有 一 个 概念 我 们 经 常会 遇 到 , 即 兼容 机 (Compatible Machine) 。 它 是 指 由 不 同 公司 
厂家 生产 的 具有 相同 系统 结构 的 计算 机 。 它 的 思想 与 系列 机 的 思想 是 一 致 的 。 

3. 模拟 和 仿真 

采用 系列 机 方法 只 能 解决 同一 系列 的 计算 机 之 间 的 软件 移植 。 为 了 使 软件 (二 进 制 代 
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码 ) 能 在 具有 不 同系 统 结构 的 计算 机 之 间 互 相 移植 ,可 以 通过 在 一 种 系统 结构 上 实现 另 一 种 
系统 结构 来 实现 。 从 指令 系统 的 角度 来 看 ,就 是 要 在 一 种 计算 机 上 实现 另 一 种 计算 机 的 指 
令 系 统 。 这 可 以 通过 模拟 和 仿真 两 种 方法 来 实现 。 

模拟 (simulation) 是 指 用 软件 的 方法 在 一 台 现 有 的 计算 机 ( 称 为 宿主 机 host) 上 实现 另 
一 台 计 算 机 ( 称 为 虚拟 机 ) 的 指令 系统 ,如 图 1.9 所 示 。 通 常用 解释 的 方法 来 实现 , 即 虚 拟 机 
的 每 一 条 指令 都 用 宿主 机 的 一 段 程序 进行 解释 执行 。 为 了 使 虚拟 机 的 应 用 程序 能 在 宿主 机 
上 运行 ,除了 模拟 虚拟 机 的 指令 系统 外 ,还 要 模拟 其 存储 系统 、1/O 系统 .操作 系 统 等 。 由 于 
模拟 是 采用 纯 软 件 解释 执行 的 方法 ,因此 运行 速度 较 慢 , 性 能 较 差 。 

仿真 是 指 用 一 台 现 有 计算 机 ( 称 为 宿主 机 ) 上 的 微 程序 去 解释 实现 男 一 台 计 算 机 ( 称 为 
目标 机 ) 的 指令 系统 ,如 图 1. 10 所 示 。 这 个 微 程序 是 专门 为 实现 目标 机 指令 系统 而 设计 的 ， 
称 为 仿真 微 程序 。 同 样 ,除了 仿真 目标 机 的 指令 系统 以 外 ,还 需要 仿真 其 存储 系统 、1/O 系 
统 、 控 制 台 操作 等 。 


| 1 I 1 
| [用 语言 虚拟 机 ] | 。 | [高 级 语言 虚拟 机 ] | 
| et 
1 ba I 1 1 1 
Mn wal 4 | | 应 用 语言 虚拟 机 | | 高 级 语言 虚拟 机 | 
| 1 | 1 1 1 让 1 
[可 语言 庶 拟 机 ] | 上 操 作 系统 虑 所 机 | 上 [项 有 承 统 碟 拟 机 | -| 操作 系统 虚拟 机 ] | 
| Le f 1! | { 1 | 
| 1 1 1 
ET | [A 机 器 语言 机 器 级 | | 
3 1 1 | 1 | t 1 
1 1 
! | 微 程序 机 器 级 || | 机 | 
1 A 宿主 机 |! | A 宿主 机 | 
图 1.9 用 模拟 方法 实现 应 用 软件 的 移植 图 1.10 用 仿真 方法 实现 应 用 软件 的 移植 


可 以 看 出 ,仿真 和 模拟 的 主要 区 别 在 于 解释 执行 所 用 的 语言 。 仿 真是 用 微 程序 解释 执 
行 的 ,其 解释 程序 存放 在 控制 存储 器 中 ;而 模拟 是 用 机 器 语言 程序 解释 执行 的 (虽然 模拟 程 
序 可 以 用 高 级 语言 来 编写 ,但 最 后 执行 时 是 机 器 代码 ) ,模拟 程序 存放 在 主 存 中 。 因 此 仿真 
的 运行 速度 比 模拟 方法 的 快 ,但 仿真 只 能 在 系统 结构 差距 不 大 的 计算 机 之 间 使 用 , 当 两 种 计 
算 机 结构 差别 比较 大 时 ,就 很 难 仿 真 。 特 别 是 I/O 系统 差别 较 大 时 更 是 如 此 。 为 了 取 长 补 
短 , 可 以 将 这 两 种 方法 混合 使 用 。 对 于 使 用 频 度 较 高 的 指令 , 尽 可 能 采用 仿真 方法 以 提高 执 
行 速度 ,而 对 于 使 用 频 度 低 和 难以 用 仿真 实现 的 指令 , 则 用 模拟 方法 来 实现 。 


1.4.3 器 件 发 展 对 系统 结构 的 影响 


器 件 是 推动 计算 机 系统 结构 不 断 发 展 的 最 活跃 的 因素 ,这 是 因为 器 件 是 组 成 计算 机 系 
统 最 基本 的 单元 。 从 根本 上 讲 , 系 统 结构 和 组 成 技术 的 新 发 展 和 新 思想 能 否 用 得 上 ,其 基础 
还 在 于 器 件 的 发 展 能 够 提供 这 种 可 能 。 如 果 不 是 器 件 可 靠 性 有 了 数量 级 的 提高 ,就 无 法 采 
用 流水 技术 ;如 果 没 有 高 速 .廉价 的 半导体 存储 芯片 .Cache 和 虚拟 存储 器 是 无 法 真正 实现 
的 。 没 有 PROMCEPROMD) 芯 片 的 出 现 , 微 程序 技术 就 无 法 真正 得 到 广泛 使 用 。 

最 近 二 十 多 年 中 ,器 件 技术 ,特别 是 VLSI 技术 的 发 展 速度 很 快 。 不管 是 在 集成 度 的 提 
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高 还 是 在 器 件 速度 上 的 提高 ,都 是 如 此 。 摩 尔 定律 指出 : 集成 电路 芯片 上 所 集成 的 晶体 管 
数目 每 隔 18 个 月 就 翻 一 番 。2003 年 以 前 CPU 在 速度 上 的 提高 也 是 如 此 , 即 CPU 的 主 频 
是 每 隔 18 个 月 就 翻 一 番 。 这 使 得 越 来 越 多 的 功能 可 以 在 一 块 世 片上 实现 ,而 且 芯 片 的 性 
能 /价格 比 也 越 来 越 高 。 以 前 ,由 于 芯片 价格 昂贵 和 集成 度 的 限制 ,许多 高 性 能 系统 结构 无 
法 实现 ,而 现在 则 不 仅 能 够 在 高 性 能 计算 机 中 实现 ,甚至 都 应 用 到 了 个 人 计算 机 中 , 即 高 性 
能 系统 结构 从 大 型 机 向 服务 器 甚至 个 人 计算 机 下 移 。 例 如 ,Cache 原先 只 有 在 大 型 机 上 才 
有 ,20 世纪 80 年 代 初 ,中 小 型 机 都 有 了 ,而 且 容 量 也 增加 了 。 到 20 世纪 90 年 代 ,Cache 已 
出 现在 PC 内 。 而 现在 ,已 经 将 Cache 做 到 了 微 处 理 器 芯片 内 。 

高 性 能 、 低 价格 CPU 芯片 的 出 现 使 得 大 规模 并 行 处 理 系统 的 实现 成 为 可 能 。 

计算 机 的 分 代 主 要 以 器 件 作为 划分 标准 。 表 1.2 列 出 了 5 代 计 算 机 的 典型 特征 。 它 们 
在 器 件 .系统 结构 和 软件 技术 等 方面 都 有 各 自 的 特征 。 表 中 MP 为 多 处 理 机 ,SMP 为 对 称 
式 共享 存储 器 多 处 理 机 ,MPP 为 大 规模 并 行 处 理 机 。 


表 1.2 5 代 计 算 机 的 典型 特征 


分 代 器 件 特 征 结构 特征 软件 特征 典型 实例 
第 一 代 存储 程序 计算 机 、 程 序 | 机 器 语言 .汇编 | 普林斯顿 ISA、 
(1945 一 1954) | 电子 管 和 继电器 | 控制 1/O 语言 ENIAC IBM701 
第 二 代 。 | 晶体 管 . 磁 心 .印刷 | 浮 点 数据 表示 、 寻 址 技 | 高 级 语言 和 编译 、| Unc， 
(1955 一 1964) | 电路 术 、 中 断 、1/O 处 理 机 | 批 处 理 监控 系统 i 
IBM7030 
第 三 代 | SSI 和 MSI、 多 层 | 流水 线 、Cache、 先 行 处 | 多 道 程序 .分 时 操 | C2、 
(1965 一 1974) | 印刷 电路 、 微 程序 | 理 、 系 列 机 作 系 统 es 
, 。 Cray-1 .IBM3090、 
第 四 代 LSI 和 VLSI. 半 导 | 向量 处 理 、 分 布 式 存 和 i 
(1975_1990) | 体 存储 器 储 器 并 行 与 分 布 处 理 DEC VAX 9000、 
Convax-1 
第 五 代 。 | 高 性 能 微 处 理 器 、| 超标 量 、 超 流水 .SMP、| 大 规模 .可 扩展 .并 | PY De 
(1991 至 今 ) | 高 密度 电路 MP、MPP、 机 群 行 与 分 布 处 理 A 
AlphaServer 8400 


1.4.4 应 用 对 系统 结构 的 影响 
应 用 对 系统 结构 的 发 展 有 着 重要 的 影响 。 不 同 的 应 用 对 计算 机 系统 结构 的 设计 提出 了 


不 同 的 要 求 ,特别 是 有 些 领 域 中 的 应 用 问题 要 求 计 算 机 有 非常 高 的 计算 速度 。 如 果 已 有 的 
计算 机 不 能 满足 这 些 要求 ,就 需要 设计 和 采用 新 的 系统 结构 。 因 此 ,应 用 需求 是 促使 计算 机 
系统 结构 发 展 最 根本 的 动力 。 

对 计算 机 应 用 来 说 ,系统 的 效率 高 低 是 一 个 关键 问题 。 如 果 能 构造 一 台 处 理 所 有 问题 
都 很 高 效 的 通用 计算 机 , 那 是 再 好 不 过 了 。 随 着 计算 机 性 能 的 不 断 提 高 ,以 前 做 不 到 的 , 现 
在 可 能 做 到 ;现在 做 不 到 的 ,将 来 可 以 做 到 。 所 以 ,通用 计算 机 一 直 是 计算 机 产业 的 主流 。 
它们 能 满足 大 部 分 应 用 的 需要 。 

但 是 ,对 于 一 些 特殊 领域 ,目前 已 有 的 通用 计算 机 可 能 满足 不 了 其 应 用 要 求 。 这 就 需要 
专门 为 这 些 领 域 设计 高 性 能 的 系统 结构 。 这 些 重 要 的 领域 包括 : 
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(1) 高 结构 化 的 数值 计算 一 一 气象 模型 .流体 动力 学 有 限 元 分 析 ; 

(2) 非 结 构 化 的 数值 计算 一 一 蒙特 卡 洛 模拟 、 稀 下 矩 阵 ; 

(3) 实时 多 因素 问题 一 一 语音 识别 、 图 像 处 理 、 计 算 机 视觉 ; 

(4) 大 存储 容量 和 输入 输出 密集 的 问题 一 一 数据 库 系统 、 事 务 处 理 系统 ; 

(5) 图 形 学 和 设计 间 题 一 一 计算 机 辅助 设计 ; 

(6) 人 工 智能 一 一 面向 知识 的 系统 ,推理 系统 等 。 

显然 ,数值 计算 领域 要 求 系统 结构 中 有 高 精度 的 浮 点 处 理 器 ,计算 要 求 较 高 的 应 用 场合 
还 可 能 需要 成 千 上 万 个 这 种 处 理 器 。 图 形 系统 需要 大 量 的 定点 计算 ,以 便 对 窗口 和 透视 图 
提供 支持 。 人 工 智 能 系统 一 般 不 需要 很 强 的 运算 能 力 .但 通常 需要 很 大 的 存储 器 容量 。 

最 早 的 计算 机 原本 是 为 计算 弹道 、 解 偏 微分 方程 而 设计 的 ,后 来 其 应 用 扩大 到 商业 和 事 
务 处 理 ,扩大 到 了 工业 生产 过 程 的 实时 控制 等 领域 。 用 户 总 是 希望 计算 机 的 应 用 范围 越 宽 
越 好 ,能 同时 支持 科学 计算 .事务 处 理 和 实时 控制 。 由 于 器 件 的 发 展 , 硬 件 价格 大 幅 下 降 , 现 
在 实现 高 性 能 通用 计算 机 已 经 不 像 以 前 那么 难 了 ,这 些 计算 机 已 经 能 满足 相当 多 领域 的 应 
用 需求 了 。 

虽然 计算 机 的 性 能 在 不 断 地 提高 ,但 应 用 领域 对 计算 机 性 能 和 空间 的 要 求 也 越 来 越 高 。 
在 采用 相同 硬件 和 软件 实现 技术 的 前 提 下 ,与 通用 计算 机 相 比 ,针对 特定 的 一 种 应 用 领域 设 
计 的 专用 计算 机 (例如 科学 计算 ?的 性 能 往往 会 高 很 多 ,系统 的 效率 也 高 很 多 。 为 了 满足 有 
些 领域 的 超 高 速 计算 性 能 的 要 求 ,往往 需要 探索 和 采用 新 的 系统 结构 。 例 如 ,很 多 巨型 ,大 
型 机 就 是 为 极 大 地 提高 科学 计算 性 能 而 研制 的 .人 们 往往 不 惜 一 切 代价 来 达到 其 超 高 性 能 
的 目标 。 过 去 在 这 些 计算 机 中 所 采用 的 系统 结构 新 技术 ,如 Cache、 虚 拟 存储 器 、1/O 处 理 
机 、 浮 点 运算 协 处 理 器 以 及 各 种 并 行 处 理 技术 等 ,后 来 都 逐渐 下 移 到 了 小 型 和 微型 通用 计算 
机 中 。 


1.5 计算 机 系统 结构 中 并 行 性 的 发 展 


1.5.1 并 行 性 的 概念 


并 行 性 (parallelism) 是 指 计算 机 系统 在 同一 时 刻 或 者 同一 时 间 间 隔 内 进行 多 种 运算 或 
操作 。 只 要 在 时 间 上 相互 重 琶 ,就 存在 并 行 性 。 它 包括 同时 性 与 并 发 性 两 种 含义 。 

同时 性 (simultaneity) 一 一 两 个 或 两 个 以 上 的 事件 在 同一 时 刻 发 生 。 

并 发 性 (concurrency) 一 一 两 个 或 两 个 以 上 的 事件 在 同一 时 间 间 隔 内 发 生 。 

计算 机 系统 中 的 并 行 性 有 不 同 的 等 级 。 从 处 理 数 据 的 角度 来 看 ,并 行 性 等 级 从 低 到 高 
可 分 为 以 下 几 种 。 

(1) 字 串 位 串 : 每 次 只 对 一 个 字 的 一 位 进行 处 理 。 这 是 最 基本 的 串 行 处 理 方式 ,不 存 
在 并 行 性 。 

(2) 字 串 位 并 : 同时 对 一 个 字 的 全 部 位 进行 处 理 ,不 同 字 之 间 是 串 行 的 。 具 备 初步 的 
并 行 性 。 这 种 并 行 性 也 称 为 位 级 并 行 。 大 约 在 1970 年 到 1986 年 之 间 ,处理 器 芯片 上 的 位 
级 并 行 占 主导 地 位 。 在 此 期 间 ,4 位 微 处 理 器 芯片 不 断 被 8 位 和 16 位 微 处 理 器 芯片 所 替 
代 。 到 20 世纪 80 年 代 中 期 ,32 位 的 微 处 理 器 芯片 已 经 出 现 , 但 此 后 趋势 变 慢 ,10 年 之 后 才 
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出 现 采用 64 位 操作 的 微 处 理 器 芯片 。 

(3) 字 并 位 串 : 同时 对 许多 字 的 同一 位 ( 称 为 位 片 ) 进 行 处 理 。 这 种 方式 具有 较 高 的 并 
行 性 。 属 于 这 种 结构 的 计算 机 有 STARAN、MPP、DAP 等 。 

(4) 全 并 行 : 同时 对 许多 字 的 全 部 位 或 部 分 位 进行 处 理 。 这 是 最 高 一 级 的 并 行 。 属 于 
这 种 结构 的 计算 机 有 PEPE ,Illiac .Cmmop 等 。 

从 执行 程序 的 角度 来 看 ,并行 性 等 级 从 低 到 高 可 分 为 以 下 5 种 。 

1) 指令 内 部 并 行 

指令 内 部 并 行 是 指 单条 指令 中 各 微 操作 之 间 的 并 行 。 


2) 指令 级 并 行 
指令 级 并 行 (Instruction Level Parallelism,ILP) 是 指 并 行 或 并 发 地 执行 两 条 或 两 条 以 
上 的 指令 。 


流水 线 技术 使 得 多 条 指令 能 重 释 地 执行 ,提高 了 CPU 执行 程序 的 吞吐 率 。 加 上 RISC 
方法 ,计算 机 达到 了 每 个 时 钟 周期 完成 一 条 指令 的 性 能 。 超 标量 (superscalar) 的 方法 则 更 
进一步 ,使 得 计算 机 能 每 个 时 钟 周期 启动 多 条 指令 ,并 能 由 多 条 流水 线 在 单 周期 内 产生 多 个 
运算 结果 。 超 标量 主要 是 用 来 开发 指令 级 并 行 的 。 

从 20 世纪 80 年 代 中 期 以 来 的 二 十 多 年 中 ,开发 指令 级 并 行 一 直 是 推动 微 处 理 器 性 能 
不 断 创 新 高 的 主要 动力 之 一 。 但 后 来 ,由 于 可 以 进一步 有 效 开发 的 指令 级 并 行 性 已 经 不 多 ， 
Intel 等 微 处 理 器 制造 商 在 2004 年 前 后 纷纷 转向 多 核 和 线程 级 并 行 的 研究 和 开发 。 

3) 线程 级 并 行 

线程 级 并 行 (Thread Level Parallelism,TLP) 是 指 并 行 执行 两 个 或 两 个 以 上 的 线程 。 

线程 是 进程 内 的 一 个 相对 独立 、 可 独立 调度 和 指派 的 执行 单元 , 它 比 进程 要 “轻巧 ”得 
多 。 线 程 中 包含 有 调度 所 需 的 信息 ,但 它 自己 基本 上 不 拥有 系统 资源 ,只 拥有 在 运行 过 程 中 
必 不 可 少 的 一 点 资源 ,如 程序 计数 器 一 组 寄存 器 、 堆 栈 等 。 所 以 线程 切换 时 ,只 需 保 存 和 设 
置 少量 寄存 器 的 内 容 ,开销 很 小 。 多 线程 既 能 提高 程序 的 并 发 和 并 行程 度 , 又 能 减少 操作 系 
统 的 开销 。 它 与 多 核 技 术 相 结 合 , 能 达到 很 好 地 开发 并 行 性 的 效果 。2000 年 以 来 ,开发 线 
程 级 并 行 的 计算 机 越 来 越 多 。 

4) 任务 级 或 过 程 级 并 行 

任务 级 或 过 程 级 并 行 是 指 并 行 执行 两 个 或 两 个 以 上 的 过 程 或 任务 (程序 段 ) ,以 子 程序 
或 进程 为 调度 单元 。 

5) 作业 或 程序 级 并 行 

作业 或 程序 级 并 行 是 指 并 行 执行 两 个 或 两 个 以 上 的 作业 或 程序 。 

在 单 处 理 机 系统 中 ,这 种 并 行 性 升 到 某 一 级 别 后 (如 线程 级 或 任务 级 ) ,需要 通过 软件 
(如 操作 系统 中 的 进程 管理 ,作业 管理 ) 来 实现 。 而 在 多 处 理 机 系统 中 ,由 于 已 具有 完成 各 个 
线程 .进程 或 任务 的 处 理 机 ,其 并 行 性 是 由 硬件 实现 的 。 

在 一 个 计算 机 系统 中 ,可 以 采取 多 种 提高 并 行 性 的 措施 。 既 可 以 有 数据 处 理 方面 的 并 
行 性 ,又 可 以 有 执行 程序 方面 的 并 行 性 。 当 并 行 性 提高 到 一 定 级 别 时 , 则 称 为 进入 并 行 处 理 
(Parallel Processing) 领域。 例如 ,处 理 数据 的 并 行 性 达到 字 并 位 串 级 ,或 者 执行 程序 的 并 
行 性 达到 线程 级 ,任务 级 或 过 程 级 , 即 可 认为 是 进入 了 并 行 处 理 领 域 。 

并 行 处 理 着 重 挖 掘 计算 过 程 中 的 并 行事 件 , 使 并 行 性 达到 较 高 的 级 别 。 因 此 ,并 行 处 理 
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是 系统 结构 ,硬件 .软件 、 算 法、 语言 等 多 方面 综合 研究 的 领域 。 
1.5.2 提高 并 行 性 的 技术 途径 

计算 机 系统 中 提高 并 行 性 的 措施 有 很 多 ,就 其 基本 思想 而 言 , 可 归纳 成 以 下 三 条 途径 。 

(1) 时 间 重 琶 (Time Interleaving) : 在 并 行 性 概念 中 引入 时 间 因 素 ,让 多 个 处 理 过 程 在 
时 间 上 相互 错开 ,轮流 重 倒 地 使 用 同一 套 硬件 设备 的 各 个 部 分 ,以 加 快 硬件 周转 而 赢得 速 
度 。 这 种 途径 原则 上 不 要 求 重复 设置 硬件 设备 。 流 水 线 技术 是 时 间 重 释 的 典型 实例 。 

(2) 资源 重复 (Resource Replication) : 在 并 行 性 概念 中 引入 空间 因素 ,以 数量 取胜 。 通 
过 重复 设置 硬件 资源 ,大 幅度 地 提高 计算 机 系统 的 性 能 。 随 着 硬件 价格 的 降低 ,这 种 途径 得 
到 了 越 来 越 广泛 的 应 用 。 可 以 在 单 处 理 机 中 重复 设置 多 个 运算 部 件 或 处 理 部 件 ,也 可 以 重 
复 设 置 多 台 处 理 机 ,构成 多 处 理 机 系统 。 

在 现在 的 计算 机 系统 中 ,经 常 是 同时 运用 时 间 重 友和 资源 重复 。 

(3) 资源 共享 (Resource Sharing) : 这 是 一 种 软件 方法 , 它 使 多 个 任务 按 一 定 的 时 间 顺 
序 轮流 使 用 同一 套 硬件 设备 。 多 道 程序 分 时 系统 就 是 遵循 这 一 途径 而 产生 的 。 资 源 共享 
既 降低 了 成 本 ,又 提高 了 计算 机 设备 的 利用 率 。 


1.5.3 单机 系统 中 并 行 性 的 发 展 


在 发 展 高 性 能 单 处 理 机 的 过 程 中 ,起 主导 作用 的 是 时 间 重 合 原 理 。 实 现时 间 重 番 的 基 
础 是 “部 件 功 能 专用 化 ”, 即 把 一 件 工 作 按 功能 分 割 为 若干 相互 联系 的 部 分 ,把 每 一 部 分 指定 
给 专门 的 部 件 完成 ,然后 按时 间 重 全 原理 把 各 部 分 的 执行 过 程 在 时 间 上 重合 起 来 ,使 所 有 部 
件 依次 分 工 完成 一 组 同样 的 工作 。 例 如 ,把 一 条 指令 的 解释 过 程 分 为 4 个 子 过 程 : 取 指 令 、 
指令 译 码 ,指令 执行 、 写 回 结果 ,为 每 个 子 过 程 分 配 一 个 专用 部 件 ,并 将 它们 的 工作 按 某 种 时 
间 关 系 重 从 起 来 ,就 构成 了 指令 流水 线 。 

在 单 处 理 机 中 ,资源 重复 原理 的 运用 也 已 经 十 分 普遍 。 例 如 ,多 体 存储 器 和 多 操作 部 件 
都 是 成 功 应 用 的 结构 形式 。 在 多 操作 部 件 处 理 机 中 ,通用 部 件 被 分 解 成 若干 个 专用 部 件 , 如 
加 法 部 件 、 乘 法 部 件 ,除法 部 件 、 逻 辑 运算 部 件 等 ,而 且 同 一 种 部 件 也 可 以 重复 设置 多 个 。 只 
要 指令 所 需 的 操作 部 件 空闲 ,就 可 以 开始 执行 这 条 指令 (如 果 操 作 数 已 准备 就 绪 的 话 ) ,这 就 
实现 了 指令 级 并 行 。 如 果 更 进一步 ,设置 许多 相同 的 处 理 单元 ,让 它们 在 同一 个 控制 器 的 指 
挥 下 ,按照 同一 条 指令 的 要 求 , 对 向 量 或 数组 的 各 元 素 同时 进行 同一 操作 ,就 形成 了 阵列 处 
理 机 (有 的 书 称 为 并 行 处 理 机 ) 。 

在 单 处理 机 中 ,资源 共享 的 概念 实质 上 是 用 单 处 理 机 模拟 多 处 理 机 的 功能 ,形成 所 谓 虚 
拟 机 的 概念 。 例 如 分 时 系统 ,在 多 终端 的 情况 下 ,每 个 终端 上 的 用 户 感觉 好 像 自己 拥 有 一 台 
处 理 机 一 样 。 


1.5.4 多 机 系统 中 并 行 性 的 发 展 


多 机 系统 也 遵循 时 间 重 倒 、 资 源 重复 ,资源 共享 原理 ,向 着 三 种 不 同 的 多 处 理 机 方向 发 
展 。 这 三 种 不 同 的 多 处 理 机 是 : 同 构 型 多 处 理 机 , 异 构 型 多 处 理 机 和 分 布 式 系统 。 不 过 ,所 
采取 的 技术 措施 与 单 处 理 机 系统 有 些 差 别 。 

可 以 用 耦合 度 来 反映 多 机 系统 中 各 计算 机 之 间 物 理 连 接 的 紧密 程度 和 交互 作用 能 力 的 
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强 弱 。 多 机 系统 的 耦合 度 分 为 紧密 耦合 和 松散 耦合 两 大 类 。 

紧密 耦合 系统 (Tightly Coupled System) 又 称 直 接 耦 合 系统 (Directly Coupled System) 。 在 
这 种 系统 中 ,计算 机 之 间 的 物理 连接 的 带宽 较 高 ,一 般 是 通过 总 线 或 高 速 开关 互 连 的 ,可 以 
共享 主 存 。 由 于 具有 较 高 的 信息 传输 率 ,因而 可 以 快速 地 并 行 处 理 多 个 作业 或 任务 。 

松散 耦合 系统 (Loosely Coupled System) 又 称 间 接 耦 合 系统 (Indirectly Coupled System)， 
一 般 是 通过 通道 或 通信 线路 实现 计算 机 之 间 的 互 连 的 ,可 以 共享 外 存 设备 (磁盘 、 磁 带 等 ) 。 
计算 机 之 间 的 相互 作用 是 在 文件 或 数据 集 一 级 上 进行 的 。 松 散 耦 合 系统 表现 为 两 种 形式 。 
一 种 是 多 台 计 算 机 和 共享 的 外 存 设备 连接 ,不 同 计算 机 之 间 实 现 功能 上 的 分 工 ( 功 能 专用 
化 ) ,计算 机 处 理 的 结果 以 文件 或 数据 集 的 形式 送 到 共享 外 存 设 备 , 供 其 他 计算 机 继续 处 理 ; 
另 一 种 是 计算 机 网 ,通过 通信 线路 连接 ,实现 更 大 范围 的 资源 共享 。 

多 处 理 机 中 为 了 实现 时 间 重 又 ,将 处 理 功 能 分 散 给 各 专用 处 理 机 去 完成 , 即 功 能 专用 
化 。 各 处 理 机 之 间 则 按时 间 重 又 原理 工作 。 例 如 ,输入 输出 功能 的 分 离 ,导致 由 通道 向 专用 
外 围 处 理 机 发 展 。 许 多 主要 功能 ,如 数组 运算 、 高 级 语言 翻译 数据 库 管理 等 ,也 逐渐 分 离 出 
来 , 交 由 专用 处 理 机 完成 ,机 间 的 耦合 程度 逐渐 加 强 , 从 而 发 展 为 异 构 型 多 处 理 机 系统 
(Heterogeneous Multiprocessor System) 。 异 构 型 多 处 理 机 系统 由 多 个 不 同类 型 .至少 担负 
不 同 功 能 的 处 理 机 组 成 ,它们 按照 作业 要 求 的 顺序 ,利用 时 间 重 琶 原理 ,依次 对 它们 的 多 个 
任务 进行 加 工 , 各 自 完成 规定 的 功能 动作 。 

最 早 的 多 机 系统 并 不 是 为 了 提高 速度 ,而 是 为 了 在 关键 性 的 工作 中 保证 系统 的 可 靠 性 。 
通过 设置 多 台 相 同类 型 的 计算 机 而 构成 的 容错 系统 ,可 使 系统 工作 的 可 靠 性 在 处 理 机 一 级 
得 到 提高 。 各 种 不 同 容 错 多 处 理 机 系统 方案 对 计算 机 间 互 连 网 络 的 要 求 是 不 同 的 ,但 正确 
性 、 可 靠 性 是 首要 要 求 。 如 果 提 高 对 互连网 络 的 要 求 , 使 其 具有 一 定 的 灵活 性 、 可 靠 性 和 可 
重 构 性 , 则 可 将 其 发 展 成 一 种 可 重 构 系统 (Reconfigurable System) 。 在 这 种 系统 中 ,平时 几 
台 计 算 机 都 正常 工作 , 像 通常 的 多 处 理 机 系统 一 样 。 但 一 旦 某 处 理 机 发 生 故 障 ,系统 就 会 重 
新 组 织 , 降 低档 次 继续 运行 ,直到 排除 故障 为 止 。 

随 着 硬件 价格 的 降低 ,现在 人 们 更 多 的 追求 目标 是 通过 多 处 理 机 的 并 行 处 理 来 提高 整 
个 系统 的 速度 。 为 此 ,对 计算 机 之 间 的 互连网 络 的 性 能 提出 了 更 高 的 要 求 。 高 带宽 、 低 延 
迟 \ 低 开销 的 机 间 互 连 网 络 是 高 效 实现 程序 或 任务 一 级 并 行 处 理 的 前 提 条 件 。 为 了 使 并 行 
处 理 的 任务 能 在 处 理 机 之 间 方 便 地 进行 调度 ,就 必须 使 各 处 理 机 具有 同等 的 功能 ,从 而 成 为 
同 构 型 多 处 理 机 系统 。 同 构 型 多 处 理 机 系统 (Homogeneous Multiprocessor System) 由 多 
个 同类 型 或 至 少 担负 同等 功能 的 处 理 机 组 成 ,它们 同时 处 理 同 一 作业 中 能 并 行 执行 的 多 个 
任务 。 


1.5.5 并 行 机 的 发 展 变化 


并 行 机 的 发 展 可 分 为 以 下 几 个 阶段 。 

1. 并 行 机 的 萌芽 阶段 (1964 一 1975) 

20 世纪 60 年 代 初 期 ,著名 的 CDC6600 提供 了 非 对 称 的 共享 存储 结构 ,中 央 处 理 机 采 
用 了 双 CPU ,并 连接 了 多 个 外 部 处 理 器 。20 世纪 60 年 代 后 期 ,一 个 重要 的 突破 是 在 处 理 器 
中 使 用 流水 线 和 重复 设置 功能 单元 ,所 获得 的 性 能 提高 是 明显 的 ,并 比 单纯 地 提高 时 钟 频率 
来 提高 性 能 更 有 效 。 尽 管 1967 年 Amdahl 定律 对 通过 增加 处 理 器 数量 来 提高 性 能 的 效果 
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提出 质疑 ,但 在 1972 年 ,Illinois 大 学 和 Burroughs 公司 却 开始 联合 研制 由 64 个 处 理 单元 
构成 的 Iliac NW SIMD 计算 机 。 并 在 1975 年 完成 了 世界 上 著名 的 由 16 个 处 理 单元 构成 的 
Illiac I 系统。 

2. 向 量 机 的 发 展 和 易 盛 阶段 (1976 一 1990) 

1976 年 ,Cray 公司 推出 了 第 一 台 向 量 计算 机 Cray-1, 它 采用 了 向 量 指令 和 向 量 寄存 器 
组 ,CPU 和 快速 主 存 紧 密 耦 合 , 其 性 能 比 当时 的 标量 系统 高 出 一 个 数量 级 。 在 随后 的 10 年 
中 ,人 们 不 断 地 推出 新 的 向 量 计算 机 ,包括 CDC 的 Cyber205、Fujitsu 的 VP1000/VP2000、 
NEC 的 SX1/SX2 以 及 我 国 的 YH-1 等 。 向 量 计算 机 的 高 性 能 使 得 它 几 乎 成 了 超级 计算 机 
的 代名词 。 它 的 发 展 呈 两 大 趋势 ,一 是 提高 单 处 理 器 的 速度 ,二 是 研制 多 处 理 器 系统 (如 
Cray X-MP)。 到 了 20 世纪 80 年 代 后 期 ,Cray-2 和 Cray-3 相继 推出 , 随 着 标准 UNIX 操作 
系统 和 向 量 编译 器 的 出 现 , 越 来 越 多 的 软件 商 将 他 们 的 应 用 程序 移植 到 Cray 系统 中 ,使 得 
Cray 系列 的 向 量 机 在 很 多 应 用 领域 获得 了 成 功 。 但 到 了 20 世纪 90 年 代 初 ,向 量 机 终 因 受 
物理 器 件 速 度 的 限制 而 发 展 缓慢 ,Cray-3 一 直 难 产 , 直 至 Cray 公司 被 SGI 公司 兼并 ,从 此 
向 量 计算 机 就 不 再 成 为 主流 并 行 机 了 。 

3. MPP 出 现 和 莲 勃 发 展 阶段 (1990 一 1995) 

20 世纪 90 年 代 开 始 ,MPP(Massively Parallel Processing) 系 统 逐 渐 地 显示 出 代替 和 超 
越 向 量 计算 多 处 理 机 系统 的 趋势 。 早 期 的 MPP 有 TC2000(1989 年 ) Touchstone Delta、 
Intel Paragon(1992 年 ) .KSR1、Cray T3D(1993 年 ) IBM SP2(1994 年 ) 和 我 国 的 曙光 -1000 
(1995 年 ) 等 ,它们 都 是 分 布 存储 的 MIMD 计算 机 。MPP 的 高 端 机 器 是 1996 年 Intel 公司 
的 ASCI Red 和 1997 年 SGI Cray 公司 的 T3E900 ,它们 都 是 万 亿 次 高 性 能 并 行 计 算 机 。20 
世纪 90 年 代 的 中 期 ,在 中 低档 市 场 上 ,SMP( 对 称 式 共享 存储 器 多 处 理 机 ) 以 其 更 优 的 性 
能 /价格 比 代替 了 MPP, 而 机 群 系统 概念 的 提出 也 是 从 这 一 点 出 发 的 。 

4. 各 种 体系 结构 并 存 阶段 (1995 一 2000) 

从 1995 年 以 后 ,PVP( 并 行 向 量 处 理 机 )、MPP、SMP、DSM (分 布 式 共享 存储 多 处 理 
机 ) .COW( 工 作 站 机 群 ,机 群 的 一 种 ) 等 各 种 体系 结构 进入 并 存 发 展 的 阶段 。MPP 系统 在 
全 世界 前 500 强 最 快 的 计算 机 中 的 占有 量 继续 稳固 上 升 ,其 性 能 也 得 到 了 进一步 的 提高 ,如 
ASCI Red 的 理论 峰值 速度 已 达到 了 1Tflop/s。 而 向 量 计算 机 厂商 推出 的 SX4 和 VPP700 
等 的 理论 峰值 速度 也 都 达到 了 1Tflop/s。 

从 1994 年 开始 ,SMP 受到 了 工业 界 用 户 的 普遍 欢迎 ,如 SGI Power Challenge 和 我 国 
的 曙光 1 号 。 这 是 因为 其 体系 结构 的 发 展 相 对 成 熟 , 而 且 具 有 卓越 的 性 能 /价格 比 。1998 
年 以 后 ,出 现 了 SMP 系统 和 MPP 系统 相 结合 的 趋势 ,将 SMP 系统 作为 单个 构件 块 彼此 连 
接 起 来 ,形成 新 的 机 群 系统 ,例如 SGI 公司 的 Origin 2000。 不 过 有 人 将 Origin 2000 看 成 
DSM 系统 ,而 另外 有 些 人 则 认为 Stanford 的 DASH 才 是 世界 上 第 一 个 真正 含义 下 的 DSM 
系统 。 由 此 可 见 , 在 这 段 期 间 , 有 些 并 行 计算 机 系统 是 多 种 体系 结构 互相 结合 的 产物 。 

5. 机 群 鞍 勃 发 展 阶段 (2000 年 以 后 ) 

随 着 工作 站 和 服务 器 性 能 的 迅速 提高 和 价格 的 日 益 下 降 以 及 高 速 网 络 产 品 的 陆续 问 
世 , 一 种 新 型 的 并 行 机 体系 结构 应 运 而 生 了 。 这 种 系统 将 一 群 工作 站 或 高 档 微 机 用 某 种 结 
构 的 互连网 络 连接 起 来 ,充分 利用 其 中 各 计算 机 的 资源 ,统一 调度 ,协调 处 理 , 以 达到 很 高 的 
峰值 性 能 ,并 实现 高 效 的 并 行 计算 。 这 就 是 近期 甚 为 流行 的 机 群 系统 。 
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尽管 1997 年 6 月 才 有 第 一 台 机 群 结 构 的 计算 机 进入 Top500 排名 ,但 进入 该 排名 的 机 
群 计算 机 系统 的 数量 逐年 稳步 增加 。2003 年 11 月 ,这 一 数字 已 达到 208 台 .机群 首次 成 为 
Top500 排名 中 比例 最 高 的 结构 。 而 MPP 机 的 数量 却 在 迅速 地 减少 。 截 至 2008 年 6 月 ,机 
群 已 经 连续 10 期 位 居 榜 首 , 其 数量 已 经 达到 400 台 , 占 80%% ;而 MPP 只 有 98 台 
19. 60 %。 机 群 已 成 为 当今 构建 高 性 能 并 行 计算 机 系统 最 常用 的 结构 。 


习 题 1 
1.1 解释 下 列 名 词 。 
多 级 层次 结构 虚拟 机 计算 机 系统 结构 ”透明 性 
翻译 解释 摩尔 定律 系列 机 
Amdahl 定律 程序 的 局 部 性 原理 ”软件 兼容 并 行 性 
时 间 重 释 资源 重复 资源 共享 耦合 度 
紧密 耦合 松散 耦合 异 构 型 多 处 理 机 同 构 型 多 处 理 机 


1.2 举例 说 明 计算 机 系统 结构 ,计算 机 组 成 与 计算 机 实现 之 间 的 相互 关系 。 

1.3 常见 的 计算 机 系统 结构 分 类 法 有 哪 三 种 ?它们 各 是 按 什么 来 分 类 的 ? 分 为 哪 几 类 ? 

1.4 计算 机 系统 “从 中 间 开 始 ” 设 计 方 法 中 的 “中 间 ” 指 的 是 什么 地 方 ? 这 样 设计 的 好 
处 是 什么 ? 

1.5 实现 软件 可 移植 性 的 常用 方法 有 哪 几 种 ? 并 简 述 其 含义 。 

1.6 分 别 从 执行 程序 的 角度 和 处 理 数据 的 角度 来 看 ,计算 机 系统 中 并 行 性 等 级 从 低 到 
高 可 分 为 哪 几 级 ? 

1.7 某 台 主 频 为 400MHz 的 计算 机 执行 标准 测试 程序 ,程序 中 指令 类 型 .执行 数量 和 
平均 时 钟 周期 数 如 下 。 


指令 类 型 | 指令 执行 数量 /条 | 平均 时 钟 周期 数 ‖ 指令 类 型 | 指令 执行 数量 /条 | 平均 时 钟 周期 数 


整数 45 000 1 浮 点 8000 4 


数据 传送 75 000 入 分 支 1500 2 


求 该 计算 机 的 有 效 CPI、MIPS 和 程序 执行 时 间 。 
1.8 已 知 4 个 程序 在 三 台 计 算 机 上 的 执行 时 间 如 下 表 所 示 。 


执行 时 间 /s 
程 序 
计算 机 A 计算 机 B 计算 机 C 
程序 1 1 10 20 
程序 2 1000 100 20 
程序 3 500 1000 50 
程序 4 100 800 100 
一 一 | -一 | -一 
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假设 4 个 程序 都 执行 100 000 000 条 指令 ,计算 这 三 台 计算 机 中 每 台 机 器 上 每 个 程序 的 
MIPS 速率 。 分 别 计算 它们 的 算术 平均 值 、 几 何平 均值 和 调和 平均 值 。 

1.9 将 计算 机 系统 中 某 一 功能 的 处 理 速 度 加 快 20 倍 ,但 该 功能 的 处 理 时 间 仅 占 整 个 
系统 运行 时 间 的 40%, 则 采用 该 改进 方法 后 ,能 使 整个 系统 的 性 能 提高 多 少 ? 

1.10 计算 机 系统 有 三 个 部 件 可 以 改进 ,这 三 个 部 件 的 加 速 比 如 下 。 

部 件 加 速 比 Si 二 30; 部 件 加 速 比 S: 一 20; 部 件 加 速 比 S: 一 10。 

(1) 如 果 部 件 1 和 部 件 2 的 可 改进 比例 都 为 30% ,那么 当 部 件 3 的 可 改进 比例 为 多 少 
时 ,系统 的 加 速 比 才 可 以 达到 10? 

(2) 如 果 三 个 部 件 的 可 改进 比例 分 别 为 30%、30% 和 20%, 三 个 部 件 同时 改进 ,那么 系 
统 中 不 可 改进 部 分 的 执行 时 间 在 总 执行 时 间 中 占 的 比例 是 多 少 ? 

1.11 假设 浮 点 数 指令 (FP 指令 ) 的 比例 为 30% ,其 中 浮 点 数 平方 根 (FPSQR ) 占 全 部 
指令 的 比例 为 4% ,FP 操作 的 CPI 为 5,FPSQR 操作 的 CPI 为 20, 其 他 指令 的 平均 CPI 为 
1.25。 现 有 两 种 改进 方案 ,第 一 种 是 把 FPSQR 操作 的 CPI 减 至 3, 第 二 种 是 把 所 有 的 FP 
操作 的 CPI 减 至 3, 试 比较 两 种 方案 对 系统 性 能 的 提高 程度 。 


第 7 齐 
指令 系统 的 设计 


内 容 提要 

(1) 指令 系统 结构 的 分 类 ; 
(2) 寻 址 方式 ; 

(3) 指令 系统 的 设计 和 优化 ; 
(4) 指令 系统 的 发 展 和 改进 ; 
(5) 操作 数 的 类 型 和 大 小 ; 
(6) MIPS 指令 系统 结构 。 


指令 系统 是 计算 机 系统 结构 的 主要 内 容 , 是 软 硬 件 交 界面 的 主要 部 分 。 本 章 重 点 讲述 
痢 令 系统 的 功能 设计 和 格式 设计 ,并 介绍 一 个 经 典 RISC 处 理 器 的 MIPS 指令 系统 。 


2.1 指令 系统 结构 的 分 类 


首先 ,需要 说 明 一 下 ,这 里 所 说 的 “指令 系统 结构 ”是 指 指令 系统 的 结构 (Instruction Set 
Architecture) 。 

CPU 中 用 来 存放 操作 数 的 存储 单元 主要 有 三 种 : 堆栈 .累加 器 .通用 寄存 器 组 。 据 此 ， 
可 以 把 指令 系统 的 结构 分 为 堆栈 型 结构 .累加 器 型 结构 以 及 通用 寄存 器 型 结构 。 在 通用 寄 
存 器 型 结构 中 ,根据 操作 数 的 来 源 不 同 . 又 可 以 进一步 分 为 寄存 器 -存储 器 型 结构 (简称 RM 
结构 ) 和 寄存 器 -寄存 器 型 结构 (RR 结构 ) 。RM 结构 的 操作 数 可 以 来 自 存储 器 ,而 RR 结构 
的 操作 数 则 都 是 来 自 通用 寄存 器 组 的 。 由 于 在 RR 结构 中 ,只 有 load 指令 和 store 指令 能 
够 访问 存储 器 ,所 以 也 称 为 load-store 结构 。 

对 于 不 同类 型 的 结构 .指令 系统 中 操作 数 的 位 置 、 个 数 以 及 操作 数 的 给 出 方式 ( 显 式 或 
隐 式 ) 是 不 同 的 。 显 式 给 出 是 用 指令 字 中 的 操作 数字 段 给 出 , 隐 式 给 出 则 是 使 用 事先 约定 好 
了 的 单元 。 在 堆栈 型 结构 中 ,操作 数 都 是 隐 式 的 , 即 堆栈 的 栈 顶 和 次 栈 顶 中 的 数据 ,运算 后 
的 结果 写 和 人 栈 顶 。 在 这 种 结构 中 ,只 能 通过 push/pop 指令 访问 存储 器 。 在 累加 器 型 结构 
中 ,其 一 个 操作 数 是 隐 式 的 , 即 累 加 器 , 另 一 个 操作 数 则 是 显 式 给 出 的 ,是 一 个 存储 器 单元 。 
运算 结果 送 回 累加 器 。 在 通用 寄存 器 型 结构 中 ,所 有 操作 数 都 是 显 式 给 出 的 ,它们 或 者 来 自 
通用 寄存 器 组 ,或 者 有 一 个 操作 数 来 自 存储 器 。 运 算 结 果 写 人 通用 寄存 器 组 。 

表 2.1 是 表达 式 Z 二 XX 十 Y 在 4 种 类 型 的 指令 系统 结构 上 的 代码 ,这 里 假设 XY、Z 均 
保存 在 存储 器 单元 中 ,并 且 不 能 破坏 X 和 YY 的 值 。 
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表 2.1 2Z=X+Y 在 4 种 类 型 的 指令 系统 结构 上 的 代码 


通用 寄存 器 型 
堆栈 型 累加 器 型 
RM 型 RR 型 
push X load X load R1.X load R1,X 
push Y add Y add R1,Y load R2,Y 
add store Z store R1,Z add R3,R1,R2 
pop Z Store R3,Z 


堆栈 型 和 累加 器 型 计算 机 的 优点 是 指令 字 比 较 短 ,程序 占用 的 空间 比较 小 。 但 是 ,它们 
都 有 着 难以 克服 的 缺点 。 在 堆栈 型 机 器 中 ,不 能 随机 地 访问 堆栈 ,难以 生成 有 效 的 代码 ,而 
且 对 栈 顶 的 访问 是 个 瓶颈 。 而 在 累加 器 型 的 机 器 中 .由 于 只 有 一 个 中 间 结 果 暂 存 器 (累加 
器 ) ,所 以 需要 频繁 地 访问 存储 器 。 

虽然 早期 的 大 多 数 计算 机 都 是 采用 堆栈 型 结构 或 累加 器 型 结构 的 指令 系统 ,但 是 自 
1980 年 以 后 ,大 多 数 计 算 机 都 采用 了 通用 寄存 器 型 结构 。 通 用 寄存 器 型 结构 在 灵活 性 和 提 
高 性 能 方面 有 明显 的 优势 ,主要 体现 在 : 

(1) 寄存 器 的 访问 速度 比 存储 器 快 很 多 。 

(2) 对 编译 器 而 言 ,能 更 加 容易 、 有 效 地 分 配 和 使 用 寄存 器 。 在 表达 式 求 值 方面 ,通用 
寄存 器 型 结构 具有 更 大 的 灵活 性 和 更 高 的 效率 。 例 如 ,在 一 台 通 用 寄存 器 型 结构 的 机 器 上 
求 表 达 式 (AXB) 一 (CXD) 一 (EXF) 的 值 时 ,其 中 的 乘法 运算 可 以 按 任意 的 次 序 进 行 , 操 
作 数 的 存放 也 更 加 灵活 ,对 流水 处 理 也 更 合适 ,因而 更 高 效 。 但 是 在 堆栈 型 机 器 上 ,该 表达 
式 的 求 值 必须 按 从 左 到 右 的 顺序 进行 。 对 操作 数 的 存放 也 有 较 多 的 限制 。 

(3) 寄存 器 可 以 用 来 存放 变量 。 这 能 带 来 许多 好 处 ， 

Q@ 由 于 寄存 器 比 存储 器 快 ,所 以 将 变量 分 配给 寄存 器 能 加 快 程序 的 执行 速度 ; 

@ 能 够 减少 对 存储 器 的 访问 ; 

@ 可 以 用 更 少 的 地 址 位 (相对 于 存储 器 地 址 来 说 ) 来 对 寄存 器 进行 寻 址 ,从 而 有 效 地 减 
少 程序 的 目标 代码 所 占用 的 空间 。 

由 于 通用 寄存 器 型 结构 是 现代 指令 系统 的 主流 ,所 以 本 书后 面 主 要 针对 这 种 类 型 的 结 
构 进行 讨论 。 

从 编译 器 设计 者 的 角度 来 看 ,总 是 希望 CPU 内 部 的 所 有 寄存 器 都 是 平等 .通用 的 。 但 
许多 以 往 的 计算 机 都 不 是 这 样 的 ,它们 将 这 些 寄存 器 中 的 相当 一 部 分 用 作 专 用 寄存 器 ,导致 
了 通用 寄存 器 数量 的 减少 。 如 果 通 用 寄存 器 的 数量 太 少 ,即使 将 变量 分 配 到 寄存 器 中 ,也 可 
能 不 会 带 来 多 少 好 处 。 因 此 ,现代 计算 机 中 寄存 器 的 个 数 已 越 来 越 多 。 

还 可 以 根据 ALU 指令 的 操作 数 的 两 个 特征 来 对 通用 寄存 器 结构 进行 进一步 的 细 分 。 
一 个 是 ALU 指令 的 操作 数 个 数 。 对 于 有 三 个 操作 数 的 指令 来 说 , 它 包 含 两 个 源 操作 数 和 
一 个 目的 操作 数 ; 而 对 于 只 有 两 个 操作 数 的 指令 来 说 ,其 中 一 个 操作 数 既 作为 源 操作 数 ,又 
作为 目的 操作 数 。 另 一 个 特征 是 ALU 指令 中 存储 器 操作 数 的 个 数 , 它 可 以 是 0 一 3 中 的 某 
一 个 值 , 为 0 表示 没有 存储 器 操作 数 。 

基于 上 述 ALU 指令 的 两 个 特性 及 其 组 合 , 可 以 得 到 5 种 组 合 类 型 ,如 表 2.2 所 示 。 


DD 
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表 2.2 ALU 指令 中 操作 数 个 数 和 存储 器 操作 数 个 数 的 典型 组 合 


仿 仿 
| rr 
0 3 RR MIPS.SPARC, Alpha., PowerPC, ARM 
2 RM IBM360/370, Intel 80x86, Motorola 68000 
. 3 RM IBM360/370 
2 2 MM VAX 
3 3 MM VAX 


表 2. 2 将 通用 寄存 器 型 结构 进一步 细 分 为 三 种 类 型 : 寄存 器 -寄存 器 型 (RR 型 )、 寄 存 
器 -存储 器 型 (RM 型 ) 和 存储 器 -存储 器 型 (MM 型 )。 这 三 种 通用 寄存 器 型 结构 的 优 缺 点 如 
表 2. 3 所 示 , 表 中 (m,n) 表 示 指 令 的 个 操作 数 中 有 wm 个 存储 器 操作 数 。 当 然 ,这 里 的 优 缺 
点 是 相对 而 言 的 ,而 且 跟 所 采用 的 编译 器 以 及 实现 策略 有 关 。 

表 2.3 常见 的 三 种 通用 寄存 器 型 指令 系统 结构 的 优 缺 点 

指令 系统 结构 类 型 优 点 缺 点 
指令 字 长 固定 ,指令 结构 简洁 ,是 | 与 指令 中 含 存储 器 操作 数 的 指令 系统 结构 相 
一 种 简单 的 代码 生成 模型 ,各 种 | 比 ,指令 条 数 多 ,目标 代码 不 够 紧凑 ,因而 程序 
指令 的 执行 时 钟 周期 数 相近 占用 的 空间 比较 大 
由 于 有 一 个 操作 数 的 内 容 将 被 破坏 ,所 以 指令 
可 以 在 ALU 指令 中 直接 对 存储 | 中 的 两 个 操作 数 不 对 称 。 在 一 条 指令 中 同时 对 
寄存 器 -存储 器 型 | 器 操作 数 进行 引用 ,而 不 必 先 用 | 寄存 器 操作 数 和 存储 器 操作 数 进行 编码 ,有 可 
《lx 2 load 指令 进行 加 载 。 容 易 对 指令 | 能 限制 指令 所 能 够 表示 的 寄存 器 个 数 。 指 令 的 
进行 编码 ,目标 代码 比较 紧凑 执行 时 钟 周期 数 因 操 作 数 的 来 源 (寄存 器 或 存 
储 器 ) 不 同 而 差别 比较 大 


指令 字 长 变化 很 大 ,特别 是 3 操作 数 指令 。 而 
存储 器 -存储 器 型 | 目标 代码 最 紧凑 ,不 需要 设置 寄 | 且 每 条 指令 完成 的 工作 也 差别 很 大 。 对 存储 器 
(2,2) 或 (3,3) 存 器 来 保存 变量 的 频繁 访问 会 使 存储 器 成 为 瓶 天。 这 种 类 型 的 
指令 系统 现在 已 不 用 了 


寄存 器 -寄存 器 型 
(0,3) 


一 般 来 说 ,指令 格式 和 指令 字 长 越 单一 ,编译 器 的 工作 就 越 简单 ,因为 编译 器 所 能 做 的 
选择 变 少 了 。 如 果 指 令 系 统 的 指令 格式 和 指令 字 长 具有 多 样 性 , 则 可 以 有 效 地 减少 目标 代 
码 所 占 的 空间 。 但 是 这 种 多 样 性 也 可 能 会 增加 编译 器 和 CPU 实现 的 难度 。 另 外 ,CPU 中 
寄存 器 的 个 数 也 会 影响 指令 的 字 长 。 

从 以 上 的 分 析 可 以 看 到 ,通用 寄存 器 型 结构 比 堆栈 型 结构 和 累加 器 型 结构 更 具有 优势 。 
在 通用 寄存 器 型 结构 中 ,存储 器 -存储 器 型 在 现代 机 器 中 已 不 采用 ,而 寄存 器 -寄存 器 型 因 其 
简洁 性 和 两 个 源 操作 数 的 对 称 性 而 备 受 青睐 。 特 别 是 在 第 3 章 我 们 将 看 到 ,寄存 器 -寄存 器 
型 结构 对 于 实现 流水 处 理 也 更 方便 。 


2.2 寻 址 方式 


寻 址 方式 在 计算 机 组 成 原理 课程 中 已 经 学 过 了 ,这 里 只 简单 地 做 个 概述 。 寻 址 方式 
(Addressing Mode) 是 指 指令 系统 中 如 何 形 成 所 要 访问 的 数据 的 地 址 。 一 般 来 说 , 寻 址 方式 
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可 以 指明 指令 中 的 操作 数 是 一 个 常数 .一 个 寄存 器 操作 数 或 者 是 一 个 存储 器 操作 数 。 对 于 
存储 器 操作 数 来 说 ,由 寻 址 方式 确定 的 存储 器 地 址 称 为 有 效 地 址 (Effective Address) 。 

表 2.4 列 出 了 一 些 操作 数 寻 址 方式 。 在 该 表 以 及 本 书后 面 的 章节 中 采用 类 C 语言 作 
为 描述 硬件 操作 的 标记 。 左 箭头 (一 ) 表 示 赋 值 操作 ,Mem 表示 存储 器 ,Regs 表示 寄存 器 
组 ; 方 括号 表示 内 容 ,如 Mem[ ] 表 示 存 储 器 的 内 容 , Regs[ ] 表 示 寄 存 器 的 内 容 。 这 样 ， 
Mem[ RegsLR11]] 指 的 就 是 由 寄存 器 R1 中 的 内 容 作为 地 址 的 存储 器 单元 中 的 内 容 。 


表 2.4 一 些 操作 数 寻 址 方式 


寻 址 方式 指令 实例 含义 
寄存 器 寻 址 ADD R1,R2 Regs[R1]<-Regs[R1] 十 Regs[R2] 
立即 数 寻 址 ADD R3,#6 Regs[R3]<-Regs[R3] 十 6 
偏 移 寻 址 ADD R3,120(R2) Regs[R3]<-Regs[R3] 十 Mem[120 十 Regs[R2]] 
寄存 器 间接 寻 址 ADD R4,(R2) Regs[R4]<-Regs[R4]+ Mem[ Regs[R2]] 
索引 寻 址 ADD R4,(R2 + R3) | Regs[R4]<-Regs[LR4] 十 Mem[RegsLR2] 十 Regs[R3]] 
直接 寻 址 或 绝对 寻 址 | ADD R4,(1010) Regs[R4]<-Regs[R4] 十 Mem[1010] 
存储 器 间接 寻 址 ADD R2,@(R4) Regs[R2]<-Regs[R2] 十 Mem[Mem[Regs[R4]]] 
自 增 寻 址 ADD RI CR2) 十 Regs[R1]<-Regs[R1]+ Mem[ Regs[R2]] 


Regs[ R2]<-Regs[ R2]+d 
Regs[R2]<-Regs[ R2]—d 


自 减 寻 址 ADD R1, 一 (R2) 


Regs[R1]<-Regs[R1] 十 Mem[LRegsLR2]] 
缩放 寻 址 ADD R1,80(R2)[R3] Regs[R1]< Regs R1] 十 Mem[80 十 Regs[R2] 十 
Regs[R3] * d] 
注 : d 为 地 址 增 量 。 


表 2.4 中 没有 包括 PC 相对 寻 址 。PC 相对 寻 址 是 一 种 以 程序 计数 器 (PC) 作 为 参考 点 
的 寻 址 方式 ,主要 用 于 在 转移 指令 中 指定 目标 指令 的 地 址 。2. 6. 6 节 将 讨论 这 些 指 令 。 另 
外 ,在 表 2.4 的 自 增 / 自 减 寻 址 方式 和 缩放 寻 址 方式 中 ,用 变量 d 来 指明 被 访问 的 数据 项 的 
大 小 (如 4 个 字 节 或 者 8 个 字 节 等 )。 只 有 当 所 要 访问 的 数据 元 素 在 存储 器 中 是 相 邻 存放 
时 ,这 三 种 寻 址 方式 才 有 意义 。 

采用 多 种 寻 址 方式 可 以 显著 地 减少 程序 的 指令 条 数 ,但 同时 也 可 能 增加 计算 机 的 实现 
复杂 度 以 及 指令 的 平均 执行 时 钟 周 期 数 (Cycles Per Instruction,CPI)。 所 以 ,有 必要 对 各 
种 寻 址 方式 的 使 用 情况 进行 统计 分 析 ,以 确定 应 采用 什么 样 的 寻 址 方式 。 

图 2.1 是 在 VAX 机 器 上 运行 gcc、Spice 和 Tex 基准 程序 ,并 对 各 种 寻 址 方式 的 使 用 情 
况 进 行 统计 的 结果 。 这 里 只 给 出 了 使 用 频 度 超过 1% 的 寻 址 方式 。 之 所 以 选择 在 已 过 时 了 
的 VAX 结构 上 进行 测试 ,是 因为 它 的 寻 址 方式 最 多 。 

从 图 2. 1 可 以 看 出 ,立即 数 寻 址 方式 和 偏 移 寻 址 方式 的 使 用 频 度 最 高 。 立 即 数 寻 址 方 
式 主要 用 于 ALU 指令 .比较 指令 和 用 于 给 寄存 器 装 和 常数 等 。 对 指令 系统 的 结构 设计 而 
言 ,首先 要 确定 是 所 有 的 指令 还 是 只 有 部 分 指令 具有 立即 数 寻 址 方式 。 表 2. 5 是 在 与 
图 2. 1 相同 的 机 器 和 程序 的 条 件 下 统计 的 立即 数 寻 址 方式 的 使 用 频 度 。 表 中 的 数据 表明 ， 
大 约 1/4 的 load 指令 和 ALU 指令 采用 了 立即 数 寻 址 。 
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图 2.1 寻 址 方式 使 用 情况 统计 结果 


表 2.5 指令 使 用 立即 数 寻 址 方式 的 频 度 


使 用 频 度 
指令 类 型 
整 型 平均 /% 浮 点 平均 /% 
load 指令 23 22 
ALU 指令 25 19 
所 有 指令 21 16 


表示 寻 址 方式 的 方法 有 两 种 ,一 种 是 隐 含 在 指令 的 操作 码 中 , 另 一 种 是 在 指令 字 中 设置 
专门 的 寻 址 字段 ,用 以 直接 指出 寻 址 方式 。 这 两 种 方法 在 不 同 的 机 器 上 都 有 采用 。 相 比 而 
言 ,设置 寻 址 字段 的 方法 更 加 灵活 ,操作 码 短 ,但 需要 设置 专门 的 寻 址 方式 字段 ,而 且 操 作 码 
和 寻 址 方式 字段 合 起 来 所 需要 的 总 位 数 可 能 会 比 隐 含 方法 的 总 位 数 多 。 

寻 址 方式 中 ,关于 物理 地 址 空间 的 信息 存放 是 一 个 需要 注意 的 问题 。 通 常 一 台 机 器 会 
同时 存放 宽度 不 同 的 信息 。 如 何在 存储 器 中 存放 这 些 不 同 宽度 的 信息 呢 ? 下面 以 IBM370 
为 例 进行 讨论 。IBM370 中 的 信息 有 字 节 、. 半 字 ( 双 字 节 ) .单字 (4 字 节 ) 和 双 字 (8 字 节 ) 等 
宽度 。 主 存 宽 度 为 8 字 节 。 采 用 按 字 节 编 址 ,各 类 信息 都 是 用 该 信息 的 首 字 节 地 址 来 寻 址 
的 。 如 果 允 许 它们 任意 存储 ,就 很 可 能 会 出 现 一 个 信息 跨 存储 字 边 界 而 存储 于 两 个 存储 单 
元 中 ,如 图 2.2(a) 所 示 。 在 这 种 情况 下 , 读 出 该 信息 需要 花费 两 个 存储 周期 ,这 显然 是 不 可 
接受 的 。 为 了 避免 出 现 这 个 问题 ,可 以 要 求 信息 宽度 不 超过 主 存 宽度 的 信息 必须 存放 在 一 
个 存储 字 内 ,不 能 跨 边 界 。 为 了 实现 这 一 点 ,就 必须 做 到 : 信息 在 主 存 中 存放 的 起 始 地 址 必 
须 是 该 信息 宽度 ( 字 节 数 ) 的 整数 倍 , 即 满足 以 下 条 件 。 

字 节 信息 的 起 始 地 址 为 : X…XXXxX。 

半 字 信息 的 起 始 地 址 为 : X… xX XxX XxX0。 

单字 信息 的 起 始 地 址 为 : X… xX X00。 

双 字 信息 的 起 始 地 址 为 : X… X000。 

这 就 是 所 谓 的 信息 存储 的 整数 边界 概念 。 图 2. 2(b) 是 图 2. 2(a) 中 的 信息 按 整数 边界 
存储 后 的 情况 。 从 图 2. 2 中 可 以 看 出 , 按 整数 边界 存储 ,可 能 会 导致 存储 空间 的 浪费 。 所 以 
这 是 在 速度 和 占用 的 空间 之 间 进 行 权衡 。 为 了 保证 访问 速度 ,现在 的 计算 机 一 般 都 是 按 整 
数 边界 存储 信息 的 。 
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图 2.2 各 种 宽度 的 信息 的 存储 


2.3 指令 系统 的 设计 和 优化 


2.3.1 指令 系统 设计 的 基本 原则 


指令 系统 是 传统 机 器 语言 程序 设计 者 所 看 到 的 计算 机 的 主要 属性 ,是 软 硬 件 的 主要 界 
面 。 它 在 很 大 程度 上 决定 了 计算 机 具有 的 基本 功能 。 指 令 系 统 的 设计 包括 指令 的 功能 设计 
和 指令 的 格式 设计 。 在 进行 指令 系统 的 设计 时 ,首先 要 考虑 所 应 实现 的 基本 功能 (操作 ) , 确 
定 哪些 基本 功能 应 该 由 硬件 实现 ,哪些 功能 由 软件 实现 。 

在 确定 哪些 基本 功能 用 硬件 来 实现 时 ,主要 考虑 的 因素 有 三 个 : 速度 .成 本 .灵活 性 。 
用 硬件 实现 的 特点 是 速度 快 .成 本 高 .灵活 性 差 , 用 软件 来 实现 的 特点 是 速度 慢 、 价 格 便宜 、 
灵活 性 好 。 按 照 第 1 章 中 所 介绍 的 “以 经 常 性 事件 为 重点 ”的 原则 ,一般 是 选择 出 现 频 度 高 
的 基本 功能 用 硬件 来 实现 。 

对 指令 系统 的 基本 要 求 是 : 完整 性 .规整 性 、 正 交 性 、 高 效率 和 兼容 性 。 

完整 性 是 指 在 一 个 有 限 可 用 的 存储 空间 内 ,对 于 任何 可 解 的 问题 ,编制 计算 程序 时 , 指 
令 系统 所 提供 的 指令 足够 使 用 。 完 整 性 要 求 指令 系统 功能 齐全 、 使 用 方便 。 表 2.6 列 出 了 
一 些 常用 的 指令 类 型 ,其 中 前 4 类 属于 通用 计算 机 系统 的 基本 指令 。 所 有 的 指令 系统 结构 
一 般 都 会 对 前 三 种 类 型 的 操作 提供 相应 的 指令 。 在 “系统 "类 指令 方面 ,不 同 指令 系统 结构 
的 支持 程度 会 有 较 大 的 差异 .但 有 一 点 是 共同 的 , 即 必须 对 基本 的 系统 功能 调用 提供 一 些 指 
令 。 对 于 最 后 4 种 类 型 的 操作 而 言 ,不 同 指令 系统 结构 的 支持 大 不 相同 ,有 的 根本 不 提供 任 
何 指令 支持 ,而 有 的 则 可 能 提供 许多 专用 指令 。 例 如 ,对 于 浮 点 操作 类 型 来 说 ,几乎 所 有 面 
向 浮 点 运算 应 用 的 计算 机 都 提供 了 浮 点 指令 。 十 进 制 和 字符 串 指令 在 有 的 计算 机 中 是 以 基 
本 操作 的 形式 出 现 的 (例如 在 VAX 和 IBM360 中 ). 有 的 则 是 在 编译 时 由 编译 器 变换 成 由 
更 简单 的 指令 构成 的 代码 段 来 实现 的 。 

规整 性 主要 包括 对 称 性 和 均匀 性 。 对 称 性 是 指 所 有 与 指令 系统 有 关 的 存储 单元 的 使 
用 、 操 作 码 的 设置 等 都 是 对 称 的 。 例 如 ,在 存储 单元 的 使 用 上 ,所 有 通用 寄存 器 都 要 同等 对 
待 。 在 操作 码 的 设置 上 ,如 果 设 置 了 A 一 B 的 指令 ,就 也 应 该 设置 B 一 A 的 指令 。 均 匀 性 是 
指 对 于 各 种 不 同 的 操作 数 类 型 . 字 长 .操作 种 类 和 数据 存储 单元 ,指令 的 设置 都 要 同等 对 待 。 
例如 ,如 果 某 机 器 有 5 种 数据 表示 ,4 种 字 长 ,两 种 存储 单元 , 则 要 设置 5X4X2 一 40 种 同一 
操作 的 指令 (如 加 法 指令 )。 不 过 ,这 样 做 太 复杂 ,也 不 太 现 实 。 所 以 一 般 是 实现 有 限 的 规整 
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性 。 例 如 把 上 述 加 法 指令 的 种 类 减少 到 10 种 以 内 。 
表 2.6 指令 系统 结构 中 操作 的 分 类 


操作 类 型 实 例 
算术 和 逻辑 运算 整数 的 算术 运算 和 逻辑 操作 :加 , 减 、 乘 \ 除 .与 ,或 等 
数据 传输 load store 
控制 分 支 . 跳 转 、 过 程 调用 和 返回 、 自 陷 等 
系统 操作 系统 调用 ,虚拟 存储 器 管理 等 
浮 点 浮 点 操作 :加 \ 减 ,乘除 .比较 等 
十 进 制 十 进 制 加 十进制 乘 .十进制 到 字符 的 转换 等 
字符 串 字符 串 移 动 .字符 串 比较 .字符 串 搜索 等 
图 形 像素 操作 、 压 缩 / 解 压 操作 等 


正 交 性 是 指 在 指令 中 各 个 不 同 含义 的 字段 ,如 操作 类 型 .数据 类 型 . 寻 址 方式 字段 等 ,在 
编码 时 应 互 不 相关 、 相 互 独立 。 

高 效率 是 指 指令 的 执行 速度 快 ,使 用 频 度 高 。 在 RISC 结构 中 ,大 多 数 指令 都 能 在 一 个 
节拍 内 完成 (流水 ) ,而 且 只 设置 使 用 频 度 高 的 指令 。 

兼容 性 主要 是 要 实现 向 后 兼容 ,指令 系统 可 以 增加 新 指令 ,但 不 能 删除 指令 或 更 改 指令 
的 功能 。 

在 设计 系统 时 ,有 两 种 截然 不 同 的 设计 策略 ,因而 产生 了 两 类 不 同 的 计算 机 系统 : CISC 
和 RISC。CISC 即 复杂 指令 集 计 算 机 (Complex Instruction Set Compnuter) , 它 是 增强 指令 
功能 ,把 越 来 越 多 的 功能 交 由 硬件 来 实现 ,指令 的 数量 也 越 来 越 多 。RISC 即 精简 指令 集 计 
算 机 (Reduced Instruction Set Computer), 它 是 尽 可 能 地 把 指令 系统 简化 ,不 仅 指令 的 条 数 
少 ,而 且 指令 的 功能 也 比较 简单 。 


2.3.2 控制 指令 


控制 指令 是 用 来 改变 控制 流 的 。 为 便于 论述 ,本 书 约定 : 当 指 令 是 无 条 件 改变 控制 流 
时 , 称 为 跳 转 指 令 ;而 当 控制 指令 是 有 条 件 改变 控制 流 时 , 则 称 为 分 支 指令 。 

能 够 改变 控制 流 的 指令 有 4 种 : 分 支 (branch)、 跳 转 (jump)、 过 程 调用 (call) 和 过 程 返 
回 (return)。 这 4 种 指令 的 使 用 频 度 如 表 2.7 所 示 , 其 中 的 百分比 是 指 它们 占 控 制 指令 总 
数 的 百分比 。 这 些 结果 是 在 一 台 load-store 型 指令 系统 结构 的 计算 机 上 执行 基准 程序 
SPEC CPU2000 得 出 的 。 


表 2.7 控制 指令 的 使 用 频 度 


使 用 频 度 
指令 类 型 
整 型 平均 /% 浮 点 平均 /% 
调用 /返回 19 8 
跳 转 6 10 
分 支 75 82 
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从 该 表 可 以 看 出 ,改变 控制 流 的 大 部 分 指令 是 分 支 指令 (条 件 转移 )。 因 此 ,如 何 表示 分 
支 条 件 就 显得 非常 重要 。 现 在 常用 的 三 种 表示 分 支 条 件 的 方法 及 其 优 缺点 见 表 2. 8。 


表 2.8 表示 分 支 条 件 的 方法 及 其 优 缺 点 


名 称 检测 分 支 条 件 的 方法 优 点 缺 点 
条 件 码 是 增设 的 状态 ,而 且 它 限 制 


检测 由 ALU 操作 设置 的 一 | 可 以 自由 设置 分 支 


条 件 码 (CC) | 检测 由 ALU 操作 了 指令 的 执行 顺序 ,因为 它们 要 保 
和 受信 证 条 件 码 能 顺利 地 传送 给 分 支 指令 
比较 指令 把 比较 结果 放 人 入 任 

条 件 寄存 器 | 何 一 个 寄存 器 ,检测 时 就 检 | 简单 占用 一 个 寄存 器 
测 该 寄存 器 


比较 操作 是 分 支 指令 的 一 部 
比较 与 分 支 | 分 ,通常 这 种 比较 是 受到 一 
定 限制 的 


用 一 条 指令 (而 不 是 | 当 采用 流水 方式 时 ,该 指令 的 操作 
两 条 ) 就 能 实现 分 支 | 可 能 太 多 ,在 一 拍 内 做 不 完 


在 控制 指令 中 ,必须 给 出 转移 的 目标 地 址 。 在 绝 大 多 数 情 况 下 ,指令 中 都 会 显 式 地 给 出 
目标 地 址 。 但 过 程 返 回 指令 是 个 例外 ,因为 在 编译 的 时 候 , 还 不 知道 其 返回 地 址 。 指 定 转 移 
目标 地 址 最 常用 的 方法 是 在 指令 中 提供 一 个 偏 移 量 , 由 该 偏 移 量 和 程序 计数 器 (PC) 的 值 相 
加 而 得 出 目标 地 址 。 这 种 寻 址 方式 叫做 PC 相对 寻 址 。 采 用 PC 相对 寻 址 方式 有 许多 优点 ， 
这 是 因为 转移 目标 地 址 通常 离 当 前 指令 很 近 . 用 相对 于 当前 PC 值 的 偏 移 量 来 确定 目标 地 
址 ,可 以 有 效 地 减少 表示 该 目标 地 址 所 需要 的 位 数 。 而 且 , 采 用 PC 相对 寻 址 ,可 以 使 代码 
被 装载 到 主 存 的 任意 位 置 执行 。 这 一 特性 叫做 “位 置 无 关 ”(Position Independence) , 它 能 够 
减少 程序 连接 的 工作 量 。 而 且 , 即 使 对 于 在 执行 过 程 中 进行 动态 连接 的 程序 来 说 ,也 是 有 
用 的 。 

当 控制 指令 采用 PC 相对 寻 址 方式 来 确定 其 转移 目标 地 址 时 ,需要 知道 偏 移 量 大 小 的 
分 布 情况 ,以 便 确 定 偏 移 量 字段 的 长 度 。 有 模拟 结果 表明 ,采用 4 一 8 位 的 偏 移 量 字段 (以 指 
令 字 为 单位 ) 就 能 表示 大 多 数控 制 指令 的 转移 目标 地 址 了 。 

对 于 过 程 调用 和 返回 而 言 ,除了 要 改变 控制 流 之 外 ,可 能 还 要 保存 机 器 状态 ,至 少 也 得 
保存 返回 地 址 ,一 般 是 放 在 专用 的 链接 寄存 器 或 堆栈 中 的 。 过 去 有 些 指令 系统 结构 提供 了 
专门 的 保存 机 制 来 保存 许多 寄存 器 的 内 容 , 而 现在 较 新 的 指令 系统 结构 则 要 求 由 编译 器 生 
成 load 和 store 指令 来 保存 或 恢复 寄存 器 的 内 容 。 


2.3.3 指令 操作 码 的 优化 


指令 一 般 由 两 部 分 组 成 : 操作 码 和 地 址 码 。 指 令 格式 的 设计 就 是 确定 指令 字 的 编码 方 
式 ,包括 操作 码 字 段 和 地 址 码 字 段 的 编码 和 表示 方式 。 指 令 格 式 不 仅 对 编译 形成 的 代码 的 
长 度 有 影响 ,而 且 对 处 理 器 的 实现 也 有 影响 ,因为 处 理 器 要 能 快速 地 对 它 进行 译 码 , 以 便 知 
道 是 什么 操作 以 及 如 何 找到 其 操作 数 。 

指令 格式 的 优化 是 指 如 何 用 最 短 的 位 数 来 表示 指令 的 操作 信息 和 地 址 信息 。 

1. 赫 夫 曼 编 码 

进行 操作 码 编 码 时 ,可 以 采用 赫 夫 曼 (Huffman) 编 码 。 赫 夫 曼 压缩 概念 的 基本 思想 是 : 
当 各 种 事件 发 生 的 概率 不 均等 时 ,可 以 对 发 生 概率 最 高 的 事件 用 最 短 的 位 数 ( 时 间 ) 来 表示 
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(处 理 ) ,而 对 于 出 现 概率 较 低 的 事件 , 则 可 以 用 较 长 的 位 数 ( 时 间 ) 来 表示 (处 理 ), 从 而 使 总 


的 平均 位 数 (时 间 ) 缩 短 。 
赫 夫 曼 编码 可 以 通过 构造 赫 夫 曼 树 来 求 得 。 构 造 赫 夫 曼 树 的 (on) 
方法 是 : 将 各 事件 按 其 使 用 频 度 从 小 到 大 依次 排列 。 每 次 从 中 先 

择 两 个 频 度 值 最 小 的 节点 ,将 其 合并 成 一 个 新 的 节点 ,并 把 新 节点 [002 oo ] 
画 在 所 选 节点 的 上 面 ,然后 用 两 条 边 把 新 节点 分 别 与 那 两 个 节点 同 。。 击 桂 大 县 岗 的 
相连 ,如 图 2. 3 所 示 。 新 节点 的 频 度 值 是 所 选 两 个 节点 的 频 度 值 让 直下 六 诗 
的 和 。 把 新 节点 与 其 他 剩余 未 结合 的 节点 一 起 ,再 以 上 面 的 步 又 

进行 处 理 ,反复 进行 ,直到 全 部 节点 都 结合 完毕 .形成 根 节点 为 止 。 


操作 码 优化 的 程度 可 以 用 信息 炉 电 = 一 》) plogsp; 来 衡量 。 它 表示 用 二 进 制 编码 表 


示 n 个 码 点 时 ,理论 上 的 最 短 平 均 编码 长 度 。 
例 2.1 假设 某 模型 机 有 7 条 指令 ,这 些 指令 的 使 用 频 度 如 表 2. 9 左边 所 示 。 


表 2.9 操作 码 的 赫 夫 曼 编码 及 扩展 操作 码 编码 


指令 | 频 度 ps pd 操作 码 长 度 4 名 操作 码 长 度 
Lh 0.40 0 1 00 2 
I 0. 30 10 2 0 1 2 
I 0.15 110 3 i 2 
L 0.05 11100 5 1100 4 
1s 0.04 重耳 在 心 开 时 1101 4 
I 0.03 全 全 汪汪 5 生化 生食 4 
I 0.03 [和 5 i 4 


(1) 计算 这 7 条 指令 的 操作 码 编码 的 最 短 平 均码 长 ; 
(2) 夯 出 赫 夫 曼 树 , 写 出 这 7 条 指令 的 赫 夫 曼 编 码 , 并 计算 该 编码 的 平均 码 长 和 信息 元 
余 量 。 


7 
解 (1) H = 一 2) pilogsp; = 2.17。 
i=1 


(2) 其 赫 夫 曼 树 如 图 2. 4 所 示 ,该 树 的 每 个 叶 节 点 分 别 对 应 于 一 条 指令 。 在 该 树 中 ,对 
每 个 节点 向 下 的 两 个 分 支 ,分 别 用 二 进 制 1 和 0 来 表示 。 

从 该 赫 夫 曼 树 可 以 很 容易 地 写 出 赫 夫 曼 编码 。 具 体 方法 是 : 对 于 任意 一 条 指令 工人 (一 
1,2,…,7), 从 赫 夫 曼 树 根 节点 出 发 . 沿 一 条 路 径 连 接 到 叶 节 点 工 , 把 途中 所 经 过 的 各 分 支 的 
0 和 1 按 从 左 到 右 的 顺序 记录 下 来 , 便 是 该 指令 的 赫 夫 曼 编码 。 表 2. 9 中 列 出 了 所 有 指令 
的 赫 夫 曼 编码 。 

该 赫 夫 曼 编码 的 平均 码 长 是 


7 
EL = 2 Pls = 220 
i=1 
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0.03 0.03 0.04 0.05 0.15 0.30 0.40 


图 2.4 赫 夫 曼 树 举例 


其 信息 元 余 量 为 
2.20 一 2.17 
2.20 


虽然 可 以 利用 赫 夫 曼 编码 来 减少 操作 码 的 平均 位 数 , 但 所 获得 的 编码 是 变 长 度 的 ,不 规 
整 , 不 利于 硬件 处 理 。 因 而 一 般 是 采用 扩展 操作 码 。 这 是 位 于 定 长 二 进 制 编码 和 赫 夫 曼 编 
码 之 间 的 一 种 编码 方案 。 这 种 编码 方案 采用 有 限 几 种 固定 长 度 的 码 长 ,仍然 采用 高 概率 用 
短 码 、 低 概率 用 长 码 的 赫 夫 曼 压 缩 思想 ,使 操作 码 平均 长 度 缩短 。 

对 于 表 2.9 中 的 指令 ,采用 2-4 的 扩展 操作 码 , 可 以 得 到 如 表 2. 9 右边 所 示 的 编码 方 
案 。 这 里 是 用 两 位 的 00、01、10 分 别 用 于 表示 使 用 频 度 高 的 、L ,1 ,然后 用 11 作为 高 位 扩 
展 出 4 个 4 位 的 二 进 制 编码 ,用 于 表示 剩 下 的 4 条 指令 。 这 种 编码 法 的 平均 长 度 为 


vr 
2) pul: = 2.3 

虽然 比 赫 夫 曼 编码 的 2. 2 大 ,但 很 接近 于 2.2, 而 且 比 定 长 的 3 位 编码 小 很 多 。 

2. 等 长 扩展 码 

在 早期 的 计算 机 上 ,为 了 便于 分 级 译 码 ,一般 都 采用 等 长 扩展 码 , 如 4-8-12 位 等 。4-8-12 
的 扩展 方法 有 许多 种 ,例如 ,15/15/15 法 和 8/64/512 法 。15/15/15 法 是 在 4 位 的 16 个 码 
点 中 ,用 15 个 码 点 表示 最 常用 的 15 种 指令 , 剩 下 的 一 个 码 点 用 于 扩展 到 下 一 个 4 位 ,而 第 
二 个 4 位 的 16 个 码 点 也 是 按 相同 的 方法 分 配 的 , 即 15 个 用 于 表示 指令 ,一 个 用 于 扩展 到 第 
三 个 4 位 ,如 图 2.5(a) 所 示 。 

8/64/512 法 是 用 头 4 位 的 0X XX 表示 最 常用 的 8 种 指令 ,接着 ,操作 码 扩展 成 两 个 
4 位 ,其 中 的 1X X X0x XX 的 64 个 码 点 表示 64 种 指令 ,然后 再 扩展 成 三 个 4 位 ,用 
1XXX1lxxXxX0xxXxxX 的 512 个 码 点 表示 512 种 指令 ,如 图 2.5(b) 所 示 。 

选用 哪 种 编码 法 取决 于 指令 使 用 频 度 p; 的 分 布 。 若 在 头 15 种 指令 中 p; 的 值 都 比较 
大 ,但 在 后 30 种 指令 中 急剧 减少 , 则 应 选择 15/15/15 法 ;车 p; 的 值 在 头 8 种 指令 中 较 大 ， 


~ 1.36% 
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之 后 的 64 种 指令 的 p; 值 也 不 太 低 , 则 应 选择 8/64/512 法 。 衡 量 标准 是 看 哪 种 编码 法 能 使 
平均 码 长 最 短 。 当 然 不 是 说 就 只 有 15/15/15 和 8/64/512 两 种 扩展 方法 , 按 扩展 标志 不 同 ， 
还 可 有 其 他 许多 种 扩展 方案 。 

不 难看 出 ,扩展 操作 码 必须 遵守 短 码 不 能 是 长 码 的 前 级 的 规则 .扩展 操作 码 的 编码 不 唯 
一 ,平均 码 长 也 不 唯一 。 因 此 ,需要 对 各 扩展 方案 进行 比较 ,以 便 找 出 一 种 平均 码 长 尽 可 能 
短 \ 码 长 种 类 个 数 不 能 过 多 的 ,便于 优化 实现 的 方案 。 


0]000 
s| 四 oo 
0000 
i 0001 0|1111 
: 1 | 000 | 0 | 000 
1110 1] ooo [o] ool 
1111 0000 64 3 
1111 0001 
15 9 1]111 [0] 
1111 1110 1|000 [1] ooo [o] ooo 
1111 1111 0000 1]o00 [FT ooo 10] ool 
1111 1111 0001 512 
15 : : 
1111 1111 1110 IUD]nifolann 
(a) 15/15/15 编码 法 (b) 8/64/512 编码 法 


图 2.5 15/15/15 编码 法 和 8/64/512 编码 法 


3. 定 长 操作 码 

随 着 计算 机 存储 器 空间 的 日 益 加 大 ,为 了 保证 操作 码 的 译 码 速度 、 减 少 译 码 的 复杂 度 ， 
现在 许多 计算 机 都 采用 了 固定 长 度 的 操作 码 , 所 有 指令 的 操作 码 都 是 同一 长 度 的 (如 8 位 )。 
特别 是 RISC 结构 的 计算 机 更 是 如 此 。 这 是 以 程序 的 存储 空间 为 代价 来 换取 硬件 实现 上 的 
好 处 。 
2.3.4 指令 字 格 式 的 优化 

如 果 指 令 字 的 宽度 是 固定 的 ,而 且 指令 中 地 址 码 的 长 度 和 个 数 是 固定 的 , 则 操作 码 的 缩 
短 并 不 能 带 来 好 处 ,只 是 使 指令 字 中 出 现 空白 浪费 ,如 图 2.6 所 示 。 
则 定 长 指令 字 长 度 / 看 


操作 码 


空白 浪费 


操作 码 
图 2.6 等 长 地 址 码 


所 以 ,为 了 能 利用 操作 码 缩短 所 带 来 的 好 处 ,可 以 采用 地 址 个 数 可 变 和 /或 地 址 码 长 度 
可 变 的 方案 。 图 2. 7 是 一 个 简单 的 例子 。 如 果 让 最 常用 的 操作 码 最 短 , 其 地 址 字段 个 数 最 
多 ,就 越 能 够 使 指令 的 功能 增强 , 越 能 够 从 总 体 上 减少 所 需 的 指令 条 数 。 
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寄存 器 -寄存 器 型 | 操作 码 [ R 
寄存 器 -存储 器 型 | 操作 码 访 存 地 址 R 
带 立 即 操作 数 _ 操作 码 立即 操作 数 | 民 R 


图 2.7 多 种 地 址 形式 和 长 度 


如 前 所 述 , 寻 址 方式 的 表示 方法 有 两 种 : 与 操作 码 一 起 编码 或 设置 专门 的 地 址 描述 符 。 
如 果 处 理 机 具有 多 种 寻 址 方式 ,而 且 指 令 有 多 个 操作 数 ,那么 就 很 难 跟 操作 码 一 起 编码 ,而 
是 应 该 给 每 个 操作 数 分 配 一 个 地 址 描述 符 , 由 描述 符 指 出 采用 什么 寻 址 方式 。 如 果 处 理 机 
采用 load-store 结构 , 寻 址 方式 只 有 很 少 几 种 ,那么 就 可 以 把 寻 址 方式 编码 到 操作 码 中 。 

由 于 在 同一 条 指令 中 ,寄存 器 字段 和 寻 址 方式 字段 可 能 反复 出 现 多 次 ,所 以 计算 机 中 寄 
存 器 的 个 数 和 寻 址 方式 的 数目 对 机 器 的 指令 字 长 有 很 大 的 影响 。 如 果 指 令 字 的 平均 长 度 增 
加 了 ,程序 的 平均 长 度 当然 也 就 增加 了 。 所 以 ,在 指令 系统 的 设计 中 ,要 在 指令 字 长 与 寄存 
器 的 个 数 以 及 寻 址 方式 的 个 数 之 间 进 行 折 中 。 

在 采用 固定 长 度 操作 码 的 情况 下 ,通过 设置 不 同 的 地 址 字段 ,也 可 以 形成 不 同 特点 的 编 
码 格式 。 图 2. 8 给 出 了 指令 系统 的 三 种 编码 格式 。 第 一 种 是 可 变 长 度 编码 格式 , 当 指 令 系 
统 的 寻 址 方式 和 操作 种 类 很 多 时 ,这 种 编码 格式 是 最 好 的 。 这 种 方法 试图 用 最 少 的 二 进 制 
位 来 表示 目标 代码 。 但 是 ,这 种 编码 格式 有 可 能 会 使 各 条 指令 的 字 长 和 执行 时 间 相 差 很 大 。 
VAX 和 80x86 采用 了 这 种 编码 格式 。 
操作 码 | 地 址 描述 符 !| 。 地 址 码 1 … [地址 描述 符 n | ”地 址 码 n 

(a) 变 长 编码 格式 
操作 码 | ”地 址 码 ! ”| 。 地 址 码 2 ”| 。 地 址 码 3 
(b) 固定 长 度 编码 格式 


操作 码 | 地 址 描述 符 地 址 码 


操作 码 | 地 址 描述 符 1 | 地 址 描述 符 2 地 址 码 


操作 码 | 地 址 描述 符 地 址 码 1 地 址 码 2 
(0) 混 台 型 编码 格式 
图 2.8 指令 系统 的 三 种 编码 格式 


第 二 种 是 固定 长 度 编码 格式 , 它 将 操作 类 型 和 寻 址 方式 一 起 编码 到 操作 码 中 。 采 用 这 
种 编码 格式 时 ,经 常 是 所 有 指令 的 长 度 都 是 固定 统一 的 。 当 寻 址 方式 和 操作 类 型 非常 少时 ， 
这 种 编码 格式 非常 好 , 它 可 以 有 效 地 降低 译 码 的 复杂 度 ,提高 译 码 的 速度 。 大 部 分 RISC 的 
指令 系统 ,如 Alpha、MIPS、Power PC 和 SPARC 等 微 处 理 器 的 指令 系统 均 采 用 了 这 种 编码 
格式 。 

在 上 述 两 种 格式 中 进行 选择 ,实际 上 就 是 在 目标 代码 长 度 和 译 码 的 简单 性 之 间 进 行 折 
中 。 系 统 结 构 设计 者 如 果 更 加 关心 的 是 程序 目标 代码 的 长 度 , 那 么 就 可 以 选择 第 一 种 ;但 如 
果 他 更 在 乎 性 能 ,那么 就 可 以 选择 第 二 种 。 


Dn 
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第 三 种 为 混合 型 编码 格式 , 它 是 把 上 述 两 种 方法 结合 起 来 , 即 提供 若干 种 固定 的 指令 字 
长 ,以 期 达到 既 能 够 减少 目标 代码 长 度 又 能 降低 译 码 复 杂 度 的 目标 。IBM360/370 的 指令 
系统 采用 了 这 种 编码 格式 。 


2.4 指令 系统 的 发 展 和 改进 


2.4.1 沿 CISC 方向 发 展 和 改进 指令 系统 


指令 数量 多 ,功能 多 样 是 CISC 指令 系统 的 一 大 特点 。 除 了 包含 基本 指令 外 ,往往 还 提 
供 了 很 多 功能 很 强 的 指令 。 指 令 条 数 往往 多 达 200 一 300 条 ,甚至 更 多 。 可 以 从 三 个 方面 对 
CISC 指令 系统 进行 改进 : 面向 目标 程序 增强 指令 功能 ,面向 高 级 语言 的 优化 实现 来 改进 指 
令 系 统 , 面 向 操作 系统 的 优化 实现 改进 指令 系统 。 
1. 面向 目标 程序 增强 指令 功能 
面向 目标 程序 增强 指令 功能 是 提高 计算 机 系统 性 能 最 直接 的 办 法 。 我 们 不 仅 希 望 减少 
程序 的 执行 时 间 , 而 且 也 希望 减少 程序 所 占 的 空间 。 可 以 对 大 量 的 目标 程序 及 其 执行 情况 
进行 统计 分 析 , 找 出 那些 使 用 频 度 高 .执行 时 间 长 的 指令 或 指令 串 。 对 于 使 用 频 度 高 的 指 
令 , 用 硬件 加 快 其 执行 ;对 于 使 用 频 度 高 的 指令 串 , 用 一 条 新 的 指令 来 蔡 代 。 这 不 但 能 减少 
目标 程序 的 执行 时 间 ,而 且 也 能 有 效 地 缩短 程序 的 长 度 。 可 以 从 以 下 几 个 方面 来 改进 。 
1) 增强 运算 型 指令 的 功能 
在 科学 计算 中 ,经 常 要 进行 函数 的 计算 ,例如 : Vz sin() .cos() ,tan()、er 等。 为 此 ,可 
以 设置 专门 的 函数 运算 指令 来 代替 相应 的 函数 计算 子 程序 。 在 有 些 应 用 程序 中 ,经 常 需要 
进行 多 项 式 计算 ,那么 就 可 以 考虑 设置 多 项 式 计 算 指 令 。 在 事务 处 理应 用 中 ,经 常 有 十 进 制 
运算 ,可 以 设置 一 套 十 进 制 运算 指令 。 
2) 增强 数据 传送 指令 的 功能 
数据 传送 ( 存 和 取 ) 指 令 在 程序 中 占有 比较 高 的 比例 。 在 IBM 公司 对 IBM360 运行 典 
型 程序 的 统计 数据 中 ,数据 传送 指令 所 占 的 比例 约 为 37%。 因 此 ,设计 好 数据 传送 指令 对 
于 提高 计算 机 系统 的 性 能 是 至 关 重要 的 。 
设置 成 组 传送 数据 的 指令 是 对 向 量 和 和 矩阵 运算 的 有 力 支 持 。 例 如 ,在 IBM370 中 ,不 仅 
设置 了 把 一 个 数据 块 从 通用 寄存 器 组 传送 到 主 存储 器 (或 者 相反 ) 的 指令 ,而 且 还 设置 了 把 
一 个 数据 块 ( 字 节 数 不 超过 256) 从 主 存储 器 的 一 个 地 方 传送 到 另 Jem 
一 个 地 方 的 指令 。 
3) 增强 程序 控制 指令 的 功能 pr 
CISC 计算 机 中 一 般 都 设置 了 多 种 程序 控制 指令 ,包括 转移 指 
令 和 子 程序 控制 指令 等 。 例 如 VAX-11/780 机 器 有 29 种 转移 指 | 
令 , 包 括 * 无 条 件 转移 ?指令 “ 跳 转 ?指令 、15 种 条 件 转移 型 指令 .6 | 
种 按 位 转移 型 指令 等 。 这 些 程序 控制 指令 向 编程 人 员 提 供 了 丰富 | 
1 
1 
1 


的 选择 。 
循环 一 般 在 程序 中 占有 相当 大 的 比例 ,所 以 应 该 在 指令 上 对 其 '------- ad 1 
提供 专门 的 支持 。 一 般 循环 程序 的 结构 如 图 2. 9 所 示 。 图 中 虚线 图 2.9 循环 程序 的 结构 


耕 们 系统 的 座 计 


框 内 的 为 循环 控制 部 分 , 它 通常 要 用 三 条 指令 来 完成 : 一 条 加 法 指令 一 条 比较 指令 和 一 条 
分 支 指令 。 程 序 中 许多 循环 的 循环 体 往往 很 短 ,统计 结果 表明 ,循环 体 中 只 有 一 条 语句 的 情 
况 约 占 40% ,有 1 一 3 条 语句 的 情况 约 占 70%。 因 此 循环 控制 指令 在 整个 循环 程序 中 占据 
了 相当 大 的 比例 。 

为 了 支持 循环 程序 的 快速 执行 .减少 循环 程序 目标 代码 的 长 度 ,可 以 设置 循环 控制 指 
令 。 例 如 ,在 IBM370 中 ,专门 设置 了 一 条 “大 于 转移 ”指令 , 仅 一 条 这 种 指令 就 可 以 完 
图 2.9 中 虚线 框 内 的 功能 。 

虽然 从 上 述 三 个 方面 来 改进 目标 程序 可 能 获得 较 好 的 结果 ,但 增加 了 硬件 的 成 本 和 复 
杂 度 。 只 有 对 于 频繁 使 用 的 子 程序 或 指令 串 ,用 较 强 功能 的 指令 取而代之 才 划 得 来 。 

2. 面向 高 级 语言 的 优化 实现 来 改进 指令 系统 

大 多 数 高 级 语言 与 一 般 的 机 器 语言 的 语义 差距 非常 大 ,这 一 方面 导致 编译 器 比较 复杂 ， 
另 一 方面 编译 器 所 生成 的 目标 代码 也 难以 达到 很 好 的 优化 。 因 此 ,改进 指令 系统 ,增加 对 高 
级 语言 和 编译 器 的 支持 ,缩小 语义 差距 ,就 能 提高 计算 机 系统 的 性 能 。 

针对 高 级 语言 中 使 用 频 度 高 ,执行 时 间 长 的 语句 ,应 该 增强 有 关 指 令 的 功能 ,加 快 这 些 
指令 的 执行 速度 ,或 者 增设 专门 的 指令 ,可 以 达到 提高 执行 速度 和 减少 目标 程序 长 度 的 目 
的 。 例 如 ,有 统计 结果 表明 ,一 元 赋值 语句 在 高 级 语言 程序 中 所 占 的 比例 最 大 ,在 
FORTRAN 程序 中 的 使 用 频 度 是 31%。 由 于 一 元 赋值 语句 是 由 数据 传送 指令 来 实现 的 , 因 
此 减少 数据 传送 指令 的 执行 时 间 是 对 高 级 语言 的 有 力 支持 。 

另外 ,统计 结果 还 表明 ,条 件 转移 (IF) 和 无 条 件 转移 (GOTO) 语 句 所 占 的 比例 也 比较 
高 ,达到 了 20% 以 上 ,所 以 增强 转移 指令 的 功能 ,增加 转移 指令 的 种 类 是 必要 的 ，。 
j 者 ,增强 系统 结构 的 规整 性 ,减少 系统 结构 中 的 各 种 例外 情况 ,也 是 对 高 级 语言 和 编 
译 器 的 有 力 支持 。 

指令 系统 经 过 上 述 扩 充 后 ,对 高 级 语言 的 优化 实现 提供 了 有 力 的 支持 ,机 器 语言 和 高 级 
语言 的 语义 差距 缩小 了 许多 。 这 样 的 计算 机 称 为 面向 高 级 语言 的 计算 机 。 

虽然 在 20 世纪 70 年 代 有 些 人 研究 了 间接 执行 高 级 语言 (把 高 级 语言 作为 汇编 语言 ) 和 
直接 执行 高 级 语言 的 机 器 。 但 因为 这 是 一 种 比较 激进 的 方法 , 它 对 计算 机 产业 的 发 展 并 没 
有 产生 多 大 的 影响 。 后 来 人 们 认识 到 .采用 “比较 简单 的 系统 结构 十 软件 ”的 做 法 能 够 在 较 
低 成 本 和 复杂 度 的 前 提 下 ,提供 更 高 的 性 能 和 灵活 性 。 

3. 面向 操作 系统 的 优化 实现 改进 指令 系统 

操作 系统 与 系统 结构 是 密切 相关 的 。 系 统 结构 必须 对 操作 系统 的 实现 提供 专门 的 指 
令 。 尽 管 这 些 指 令 的 使 用 频 度 比 较 低 .但 如 果 没 有 它们 的 支持 ,操作 系统 将 无 法 实现 ,所 以 
有 些 指令 是 必 不 可 少 的 。 指 令 系统 对 操作 系统 的 支持 主要 有 : 

(1) 处 理 机 工作 状态 和 访问 方式 的 切换 ; 

(2) 进程 的 管理 和 切换 ; 

(3) 存储 管理 和 信息 保护 ; 

(4) 进程 的 同步 与 互 斥 .信号灯 的 管理 等 。 

支持 操作 系统 的 有 些 指令 属于 特权 指令 ,一 般 用 户 程序 不 能 使 用 。 
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2.4.2 沿 RISC 方向 发 展 和 改进 指令 系统 


在 20 世纪 70 年 代 后 期 ,人 们 已 经 感到 日 趋 庞杂 的 指令 系统 不 仅 不 易 实 现 , 而 且 还 有 可 
能 降低 系统 的 性 能 和 效率 。 从 1979 年 开始 ,美国 加 州 大 学 Berkeley 分 校 以 Patterson 为 首 
的 研究 小 组 对 指令 系统 结构 的 合理 性 进行 了 深入 研究 ,他 们 的 研究 结果 表明 ,CISC 指令 集 
结构 存在 以 下 问题 。 

(1) 各 种 指令 的 使 用 频 度 相差 悬殊 ,许多 指令 很 少 用 到 。 据 统计 ,只 有 20% 的 指令 使 用 
频 度 比较 高 , 占 运 行 时 间 的 80%。 而 其 余 80% 的 指令 只 在 20% 的 运行 时 间 内 才 会 用 到 ,而 
且 使 用 频 度 高 的 指令 也 是 最 简单 的 指令 。 

(2) 指令 系统 庞大 ,指令 条 数 很 多 ,许多 指令 的 功能 又 很 复杂 。 这 使 得 控制 器 硬件 变 得 
非常 复杂 ,所 导致 的 问题 是 : 

Q@ 占用 了 大 量 的 芯片 面积 (如 占用 CPU 芯片 总 面积 的 一 半 以 上 ) ,给 VLSI 设计 造成 
了 很 大 的 困难 ; 

@ 不 仅 增加 了 研制 时 间 和 成 本 ,而 且 还 容易 造成 设计 错误 。 

(3) 许多 指令 由 于 操作 繁杂 ,其 CPI 值 比较 大 (一 般 CISC 机 器 指令 的 CPI 都 在 4 以 
上 ,有 些 在 10 以 上 ) ,执行 速度 慢 。 采 用 这 些 复杂 指令 有 可 能 使 整个 程序 的 执行 时 间 反 而 
增加 。 

(4) 由 于 指令 功能 复杂 ,规整 性 不 好 ,不 利于 采用 流水 技术 来 提高 性 能 。 

表 2. 10 是 对 在 Intel 80x86 上 执行 整 型 程序 进行 统计 的 结果 。 表 中 所 列 出 的 10 种 简 
单 指令 占据 了 所 有 执行 指令 的 95%。 因 此 ,人 们 不 禁 会 问 , 花 了 那么 多 的 硬件 去 实现 那么 
多 很 少 使 用 的 复杂 指令 ,值得 吗 ? Patterson 等 人 在 进行 了 深入 的 研究 后 ,提出 了 RISC 指 
令 集结 构 的 设计 思想 。 这 是 一 种 与 CISC 的 设计 策略 完全 不 同 的 设计 思想 , 它 能 克服 上 述 
CISC 的 缺点 。RISC 是 近代 计算 机 系统 结构 发 展 史 中 的 一 个 里 程 碑 。 


表 2.10 Intel 80x86 最 常用 的 10 条 指令 


执行 频 度 排序 80x86 指令 指令 执行 频 度 ( 占 执行 指令 总 数 的 百分比 ) 

1 load 22% 
2 条 件 分 支 20% 
3 比较 16% 
4 store 12% 
5 加 8% 
6 与 6% 
7 减 5% 
8 寄存 器 -寄存 器 间 数 据 移动 4% 
9 调用 子 程 序 1% 
10 返回 1% 

合 计 95% 


指 们 系统 的 讼 计 


设计 RISC 机 器 一 般 应 当 遵循 以 下 原则 : 

(1) 指令 条 数 少 、 指 令 功 能 简单 。 确 定 指令 系统 时 ,只 选取 使 用 频 度 很 高 的 指令 ,在 此 
基础 上 补充 一 些 最 有 用 的 指令 (如 支持 操作 系统 和 高 级 语言 实现 的 指令 ); 

(2) 采用 简单 而 又 统一 的 指令 格式 ,并 减少 寻 址 方式 ,指令 字 长 都 为 32 位 或 64 位 ; 

(3) 指令 的 执行 在 单 周 期 内 完成 (采用 流水 线 技术 后 ); 

(4) 采用 load-store 结构 , 即 只 有 load 和 store 指令 才能 访问 存储 器 ,其 他 指令 的 操作 
都 是 在 寄存 器 之 间 进 行 的 ; 

(5) 大 多 数 指令 都 采用 硬 连 逻辑 来 实现 ; 

(6) 强调 优化 编译 器 的 作用 ,为 高 级 语言 程序 生成 优化 的 代码 ; 

(7) 充分 利用 流水 技术 来 提高 性 能 。 

1981 年 ,Patterson 等 人 研制 成 功 了 32 位 的 RISC I 微 处 理 器 。RISC 工 中 只 有 31 条 
指令 ,指令 字 长 都 是 32 位 ,共有 78 个 通用 寄存 器 ,时 钟 频率 为 8MHz。 控 制 部 分 所 占 的 芯 
片面 积 只 有 约 6% ,而 当时 最 先进 的 商品 化 微 处 理 器 MC68000 和 Z8000 分 别 为 50% 和 
53%。RISC 工 的 性 能 比 MC68000 和 Z8000 快 三 四 倍 。1983 年 他 们 又 研制 出 了 RISC J， 
指令 条 数 为 39 ,通用 寄存 器 个 数 为 138 ,时 钟 频率 为 12MHz。 

除 RISC 开 以 外 ,早期 的 RISC 机 器 还 包括 IBM 的 801 和 Stanford 大 学 的 MIPS。IBM 
的 研究 工作 早 在 1975 年 就 开始 了 ,是 最 早 开 始 的 ,但 却 是 最 晚 才 公开 的 。801 实际 上 只 是 
个 实验 性 的 项 目 。Stanford 大 学 的 Hennessy 及 其 同事 们 于 1981 年 发 表 了 他 们 的 MIPS 计 
算 机 。 这 三 台 RISC 机 器 有 许多 共同 点 ,例如 它们 都 采用 load-store 结构 和 固定 32 位 的 指 
令 字 长 ,它们 都 强调 采用 高 效 的 流水 技术 。 

在 上 述 研 究 工作 的 基础 上 ,1986 年 起 ,计算 机 工业 界 开始 发 布 基于 RISC 技术 的 微 处 理 
器 。Berkeley 的 RISC 了 [后 来 发 展 成 了 Sun 公司 的 SPARC 系列 微 处 理 器 ,Stanford 大 学 的 
MIPS 后 来 发 展 成 了 MIPS Rxxx 系列 微 处 理 器 ,IBM 则 是 在 其 801 的 基础 上 设计 了 新 的 系 
统 结构 ,推出 了 IBM RT-PC 以 及 后 来 的 RS6000。 


2.5 操作 数 的 类 型 和 大 小 


计算 机 系统 所 能 处 理 的 数据 类 型 很 多 .如 图 、 表 、 树 、 阵 列队 列 ,链表 ,堆栈 、 向 量 、 字 符 
串 、 实 数 ,整数 .字符 等 。 在 设计 计算 机 系统 结构 时 ,需要 研究 在 这 些 数据 类 型 中 ,哪些 用 硬 
件 实现 ,哪些 用 软件 实现 ,并 对 于 要 用 硬件 实现 的 数据 类 型 ,研究 它们 的 实现 方法 。 

数据 表示 (Data Representation) 是 指 计算 机 硬件 能 够 直接 识别 、 指 令 系 统 可 以 直接 调 
用 的 数据 类 型 。 它 一 般 是 所 有 数据 类 型 中 最 常用 .相对 比较 简单 .用 硬件 实现 比较 容易 的 几 
种 ,如 定点 数 (整数 ) .逻辑 数 (布尔 数 ) . 浮 点 数 (实数 ) .字符 .字符 串 等 。 当 然 , 有 些 机 器 的 数 
据 表示 复杂 一 些 , 除 上 面 这 些 外 ,还 设置 有 十 进 制 、 向 量 、 堆 栈 等 数据 表示 。 

数据 结构 (Data Structure) 则 不 同 , 它 是 指 由 软件 进行 处 理 和 实现 的 各 种 数据 类 型 。 数 
据 结构 研究 的 是 这 些 数据 类 型 的 逻辑 结构 与 物理 结构 之 间 的 关系 ,并 给 出 相应 的 算法 。 一 
般 来 说 ,除了 数据 表示 之 外 的 所 有 数据 类 型 都 是 数据 结构 要 研究 的 内 容 。 

如 何 确定 数据 表示 是 系统 结构 设计 者 要 解决 的 难题 之 一 。 从 原理 上 讲 , 计 算 机 只 要 有 
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了 最 简单 的 数据 表示 ,如 定点 数 , 就 可 以 通过 软件 的 方法 实现 各 种 复杂 的 数据 类 型 ,但 是 这 
样 会 大 大 降低 系统 的 性 能 和 效率 。 在 另 一 极端 ,如 果 把 复杂 的 数据 类 型 都 包含 在 数据 表示 
之 中 ,系统 所 花费 的 硬件 成 本 会 很 高 。 如 果 这 些 复杂 的 数据 表示 很 少 用 到 ,那么 这 样 做 就 很 
不 合理 了 。 因 此 ,确定 数据 表示 实际 上 也 是 个 软 硬 件 取舍 折 中 的 问题 。 

表示 操作 数 类 型 的 方法 有 两 种 : 

(1) 由 指令 中 的 操作 码 指 定 操作 数 的 类 型 。 

这 是 最 常用 的 方法 。 绝 大 多 数 机 器 都 采用 了 这 种 方法 。 由 于 是 在 操作 码 中 指出 的 ,所 
以 即使 是 同一 种 运算 ,对 于 不 同 的 操作 数 类 型 也 要 设置 不 同 的 指令 。 例 如 ,整数 加 , 浮 点 加 ， 
无 符号 数 加 等 。 

(2) 给 数据 加 上 标识 (tag) ,由 数据 本 身 给 出 操作 数 类 型 。 

这 就 是 所 谓 的 带 标志 符 的 数据 表示 。 硬 件 通过 识别 这 些 标 志 符 就 能 得 知 操作 数 的 类 
型 ,并 进行 相应 的 操作 。 

带 标志 符 的 数据 表示 有 很 多 优点 ,例如 ,能 简化 指令 系统 ,可 由 硬件 自动 实现 一 致 性 检 
查 和 类 型 转换 ,缩小 了 机 器 语言 与 高 级 语言 的 语义 差距 ,简化 编译 器 等 。 但 由 于 需要 在 程序 
执行 过 程 中 动态 检测 标志 符 ,动态 开销 比较 大 ,所 以 采用 这 种 方案 的 机 器 很 少见 。 

本 书 中 ,操作 数 的 大 小 (size) 是 指 操作 数 的 位 数 或 字 节 数 。 一 般 来 说 ,主要 的 大 小 有 : 
字 节 (8 位 )、 半 字 (16 位 ). 字 (32 位 )、 和 双 字 (64 位 )。 字 符 一 般 用 ASCII 码 表示 的 ,为 一 个 
字 节 大 小 。 整 数 则 几乎 都 是 用 二 进 制 补 码 表示 的 ,其 大 小 可 以 是 字 节 、 半 字 或 单字 。 浮 点 操 
作 数 可 以 分 为 单 精度 浮 点 数 (一 个 字 ) 和 双 精 度 浮 点 数 ( 双 字 )。20 世纪 80 年 代 以 前 ,大 多 
数 计算 机 厂家 都 一 直 采 用 各 自 的 浮 点 操作 数 表示 方法 ,但 后 来 几乎 所 有 的 计算 机 都 采用 了 
IEEE 754 浮 点 标准 。 

面向 商业 应 用 ,可 以 设置 十 进 制 数据 表示 。 这 种 数据 表示 一 般 称 为 “压缩 十 进 制 ”或 “二 
进 制 编码 十 进 制 "(Binary Coded Decimal,BCD) 码 。 它 是 用 4 位 二 进 制 编码 表示 数字 0 一 9， 
并 将 两 个 十 进 制 数字 合并 到 一 个 字 节 中 存储 的 。 如 果 将 十 进 制 数 直接 用 字符 串 来 表示 ,就 
叫做 “ 非 压缩 十 进 制 ”。 在 这 种 机 器 中 ,一 般 会 提供 在 压缩 十 进 制 数 和 非 压 缩 十 进 制 数 之 间 
进行 相互 转换 的 操作 。 

在 指令 系统 结构 设计 中 ,知道 对 各 种 类 型 操作 数 的 访问 频 度 是 很 重要 的 ,这 对 于 确定 需 
要 对 哪些 类 型 的 操作 数 提供 高 效 的 支持 很 有 帮助 。 表 2. 11 中 列 出 了 对 于 SPEC 基准 程序 
来 说 ,对 字 节 , 半 字 .单字 和 双 字 4 种 操作 数 的 访问 分 布 情况 。 从 该 表 可 以 看 出 ,基准 程序 对 
单字 和 双 字 的 数据 访问 具有 较 高 的 频 度 , 所 以 选择 操作 数 的 大 小 为 32 位 比较 合适 。 


表 2.11 不 同 操作 数 大 小 的 访问 频 度 


访问 频 度 访问 频 度 
操作 数 大 小 操作 数 大 小 
整 型 平均 /% | 浮 点 平均 /% 整 型 平均 /% | 浮 点 平均 /% 
字 节 过 0 单字 74 31 
半 字 19 0 双 字 0 69 


从 上 面 的 分 析 可 知 , 一 台 32 位 的 计算 机 应 该 支持 8 位 .16 位 、32 位 整 型 操作 数 以 及 32 
位 和 64 位 的 IEEE 754 标准 的 浮 点 操作 数 。 
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至 此 ,已 经 对 计算 机 指令 系统 结构 设计 的 基本 知识 进行 了 比较 全 面 的 讨论 ,下 面 介绍 一 
个 指令 系统 结构 实例 。 


2.6 MIPS 指令 系统 结构 


为 了 进一步 加 深 对 指令 系统 结构 设计 的 理解 ,下 面 讨论 MIPS 指令 系统 结构 。 之 所 以 
选择 MIPS, 是 因为 它 不 仅 是 一 种 典型 的 RISC 结构 ,而 且 还 比较 简单 ,易于 理解 和 学 习 。 本 
书后 面 各 章 中 使 用 的 例子 几乎 都 是 基于 该 指令 系统 结构 的 。 

1981 年 ,Stanford 大 学 的 Hennessy 及 其 同事 们 发 表 了 他 们 的 MIPS 计算 机 ,后 来 ,在 
此 基础 上 形成 了 MIPS 系列 微 处 理 器 。 到 目前 为 止 ,已 经 出 现 了 许多 版 本 的 MIPS。 下 面 
介绍 MIPS64 的 一 个 子 集 , 并 将 它 简称 为 MIPS。 


2.6.1 MIPS 的 奇 存 器 


MIPS64 有 32 个 64 位 通用 寄存 器 : RO0,R1.…,R31。 它 们 被 简称 为 GPRs(General- 
Purpose Registers) ,有 了 时 也 被 称 为 整数 寄存 器 。R0 的 值 永远 是 0。 此 外 ,还 有 32 个 64 位 
浮 点 数 寄存 器 : F0,Fl1,…,F31。 它 们 被 简称 为 FPRs (Floating-Point Registers)。 它 们 既 
可 以 用 来 存放 32 个 单 精度 浮 点 数 (32 位 ) ,也 可 以 用 来 存放 32 个 双 精 度 浮 点 数 (64 位 )。 存 
储 单 精度 浮 点 数 (32 位 ) 时 ,只 用 到 FPR 的 一 半 ,其 另 一 半 没 用 。MIPS 提供 了 单 精度 和 双 
精度 (32 位 和 64 位) 操作 的 指令 ,而 且 还 提供 了 在 FPRs 和 GPRs 之 间 传 送 数据 的 指令 。 

另外 ,还 有 一 些 特 殊 寄 存 器 ,例如 浮 点 状态 寄存 器 。 它 们 可 以 与 通用 寄存 器 交换 数据 。 
浮 点 状态 寄存 器 用 来 保存 有 关 浮 点 操作 结果 的 信息 。 


2.6.2 MIPS 的 数据 表示 


MIPS 的 数据 表示 有 : 

(1) 整数 , 字 节 (8 位 ) , 半 字 (16 位 ), 字 (32 位 ) 和 双 字 (64 位 ) 。 

(2) 浮 点 数 , 单 精度 浮 点 数 (32 位 ), 双 精度 浮 点 数 (64 位 ) 。 

之 所 以 设置 半 字 操作 数 类 型 ,是 因为 在 类 似 于 C 的 高 级 语言 中 有 这 种 数据 类 型 ,而且 
在 操作 系统 等 程序 中 也 很 常用 ,这 些 程序 很 重视 数据 所 占 的 空间 大 小 。 设 置 单 精度 浮 点 操 
作 数 也 是 基于 类 似 的 原因 。 

MIPS64 的 操作 是 针对 64 位 整数 以 及 32 位 或 64 位 浮 点 数 进行 的 。 字 节 , 半 字 或 者 字 
在 装 入 64 位 寄存 器 时 ,用 零 扩 展 或 者 用 符号 位 扩展 来 填充 该 寄存 器 的 剩余 部 分 。 装 人 以 
后 ,对 它们 将 按照 64 位 整数 的 方式 进行 运算 。 


2.6.3 MIPS 的 数据 寻 址 方式 


MIPS 的 数据 寻 址 方式 只 有 立即 数 寻 址 和 偏 移 量 寻 址 两 种 ,立即 数字 段 和 偏 移 量 字段 
都 是 16 位 的 。 寄 存 器 间接 寻 址 是 通过 把 0 作为 偏 移 量 来 实现 的 ,16 位 绝对 寻 址 是 通过 把 
R0( 其 值 永远 为 0) 作 为 基 址 寄存 器 来 完成 的 。 这 样 实际 上 就 有 了 4 种 寻 址 方式 。 

MIPS 的 寻 址 方式 是 编码 到 操作 码 中 的 。 

MIPS 的 存储 器 是 按 字 节 寻 址 的 ,地 址 为 64 位 。 由 于 MIPS 是 load-store 结构 ,GPRs 
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和 FPRs 与 存储 器 之 间 的 数据 传送 都 是 通过 load 和 store 指令 来 完成 的 。 与 GPRs 有 关 的 
存储 器 访问 可 以 是 字 节 、 半 字 、 字 或 双 字 。 与 FPRs 有 关 的 存储 器 访问 可 以 是 单 精 度 浮 点 数 
或 双 精 度 浮 点 数 。 所 有 存储 器 访问 都 必须 是 边界 对 齐 的 。 


2.6.4 MIPS 的 指令 格式 


为 了 使 处 理 器 更 容易 进行 流水 实现 和 译 码 ,所 有 的 指令 都 是 32 位 的 ,其 格式 见 
图 2. 10。 这 些 指令 格式 很 简单 ,其 中 操作 码 占 6 位 。MIPS 按 不 同类 型 的 指令 设置 不 同 的 
格式 ,共有 三 种 格式 ,它们 分 别 对 应 于 工 类 指令 .R 类 指令 .J 类 指令 。 在 这 三 种 格式 中 ,同名 
字段 的 位 置 固定 不 变 。 


6 5 5 16 
| 操作 码 rs rt 立即 数 (immediate) 
0 5 6 10 11 15 16 31 
(a) I 类 指令 
6 5 5 和 : 6 
| 操作 码 rs rt rd shamt | funct 
0 556 10 11 15 16 20 21 25 26 31 
(b) R 类 指令 
6 26 
| 操作 码 与 PC 相 加 的 偏 移 量 
0 556 31 
(0) J 类 指令 


图 2. 10 MIPS 的 指令 格式 


1. 工 类 指令 
I 类 指令 包括 所 有 的 load 和 store 指令 ,立即 数 指令 ,分支 指 令 ,寄存 器 跳 转 指令 ,寄存 
器 链接 跳 转 指令 。 其 格式 如 图 2. 10(a) 所 示 , 其 中 的 立即 数字 段 为 16 位 ,用 于 提供 立即 数 
或 偏 移 量 。 
1) load 指令 
访 存 有 效 地 址 为 Regs[rsj 十 immediate, 从 存储 器 取 来 的 数据 放 入 寄存 器 rt。 
2) store 指令 
访 存 有 效 地 址 为 Regs[rs] 十 immediate, 要 存 人 存储 器 的 数据 放 在 寄存 器 rt 中 。 
3) 立即 数 指令 
Regs[Lrtj<RegsLrs] op immediate 
4) 分 支 指令 
转移 目标 地 址 为 PC 十 immediate,Regs[rs] 为 用 于 比较 的 值 。 
5) 寄存 器 跳 转 .寄存 器 跳 转 并 链接 
转移 目标 地 址 为 Regs[rs]。 
2. R 类 指令 
R 类 指令 包括 ALU 指令 ,专用 寄存 器 读 / 写 指令 ,move 指令 等 。 
ALU 指令 为 
Regs[rd|<-Regs[ rs| funct Regs[ rt] 
funct 为 具体 的 运算 操作 编码 。 


3. J 类 指令 
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本 类 指令 包括 跳 转 指令 , 跳 转 并 链接 指令 , 自 陷 指令 ,异常 返回 指令 。 在 这 类 指令 中 , 指 
令 字 的 低 26 位 是 偏 移 量 , 它 与 PC 值 相 加 形成 跳 转 的 地 址 。 


2.6.5 MIPS 的 操作 


MIPS 指令 可 以 分 为 4 大 类 : load 和 store,ALU 操作 ,分 支 与 跳 转 , 浮 点 操作 。 

除了 RO0 外 ,所 有 通用 寄存 器 与 浮 点 寄存 器 都 可 以 进行 load 或 store。 表 2. 12 给 出 了 
load 和 store 指令 的 一 些 具体 例子 。 单 精度 浮 点 数 占 用 浮 点 寄存 器 的 一 半 , 单 精度 与 双 精 
度 之 间 的 转换 必须 显 式 地 进行 。 浮 点 数 的 格式 是 IEEE 754。 


表 2.12 MIPS 的 load 和 store 指令 的 例子 


指令 举例 指令 名 称 含义 
LD R2,20(R3) ”| 装 人 双 字 Regs[R2]<-6 Mem[20 十 Regs[R3]] 
LW R2,40(R3) | 装 人 字 Regs[R2]<-6, (Mem[40 十 Regs[R3]]。) 蔚 # # Mem[40 十 Regs[R3]] 
LB R2,30(R3) 装 人 字 节 Regs[R2]<-6, (Mem[ 30+Regs[R3]],)*## Mem[L30 十 Regs[R3]] 
LBU R2,40(R3) | 装 人 无 符号 字 节 Regs[R2]<-6, 05 井 # Mem[40 十 Regs[R3]] 
| 深信 本 和 i ee ee 
L.S F2,60(R4) | 装 入 单 精度 浮 点 数 | Regs[F2]<-6。Mem[60 十 Regs[R4]] #0” 
L.D F2,40(R3) | 装 和 人 双 精 度 浮 点 数 | Regs[F2]<-6 Mem[ 40 十 Regs[R3]] 
SD R4,300(R5) | 保存 双 字 Mem[ 300+ Regs[ R51]]<-6, Regs[R4] 
SW R4,300(R5) | 保存 字 Mem[ 300+ Regs[ R51]]<-3» Regs[R4] 
S.S F2,40(R2) | 保存 单 精度 浮 点 数 | Mem[40 十 Regs[R2]]<-3。Regs[F2j]o.s1 
SH R5,502(R4) | 保存 半 字 Mem[502 十 Regs[R4]]<-s Regs[ R51]..63 


说 明 : 要 求 内 存 的 值 必须 是 边界 对 齐 。 


在 下 面 解 释 指 令 的 操作 时 ,我 们 采用 了 类 似 C 语言 的 描述 语言 。 在 2. 2 节 中 已 经 给 出 
了 几 个 符号 的 含义 ,其 他 符号 的 意义 如 下 。 


*“z<y ”表示 从 y 传送 nn 位 到 zx。*x,y<x” 表 示 把 x 传送 到 x 和 >y。 


。 用 下 标 表示 字段 中 具体 的 位 。 对 于 指令 和 数据 , 按 从 最 高 位 到 最 低位 ( 即 从 左 到 右 ) 的 
顺序 依次 进行 编号 ,最 高 位 为 第 零 位 ,次 高 位 为 第 一 位 ,以 此 类 推 。 下 标 可 以 是 一 个 数 
字 , 也 可 以 是 一 个 范围 。 例 如 ,Regs[R4]。 表示 寄存 器 R4 的 符号 位 ,Regs[LR4jse..6 表 
示 R4 的 最 低 字 节 。 
。 Mem 表示 主 存 , 按 字 节 寻 址 。 
。 上 标 用 于 表示 对 字段 进行 复制 的 次 数 。 例 如 0 表示 一 个 32 位 长 的 全 零 字段 。 
。 符号 车 革 用 于 两 个 字段 的 拼接 ,并 且 可 以 出 现在 数据 传送 的 任何 一 边 。 
下 面 举 个 例子 。 假 设 R8 和 R6 是 64 位 的 寄存 器 , 则 
RegsLR8]: .ss<s (Mem [RegsLR6]]o)*## Mem [RegsLR6]] 
表示 的 意义 是 : 以 R6 的 内 容 作为 地 址 访问 主 存 , 得 到 的 字 节 按 符号 位 扩展 为 32 位 后 存 入 
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R8 的 低 32 位 ,R8 的 高 32 位 ( 即 RegsLR8jo.) 不 变 。 

MIPS 中 所 有 的 ALU 指令 都 是 寄存 器 -寄存 器 型 (RR 型 ) 或 立即 数 型 的 。 运 算 操作 包 
括 算 术 和 逻辑 操作 (加 、 减 与、 或 . 异 或 和 移 位 等 ), 表 2. 13 中 给 出 了 一 些 例子 。 所 有 这 些 指 
令 都 支持 立即 数 寻 址 模式 ,参与 运算 的 立即 数 是 由 指令 中 的 immediate 字段 ( 低 16 位 ) 经 符 
号 位 扩展 后 生成 的 。 


表 2.13 MIPS 中 ALU 指令 的 例子 


指令 举例 指令 名 称 会 4 
DADDU R1,R2,R3 无 符号 加 Regs[R1]<— Regs[R2]+ Regs[R3] 
DADDIU R4,R5,#6 加 无 符号 立即 数 Regs[R4]<- Regs[R5] 十 6 
LUI R1,#4 把 立即 数 装 和 一 个 字 的 高 16 位 | Regs[LR1j]<- 0 并 4 并 # 05 
DSLL R1,R2,#5 逻辑 左 移 Regs[R1]<— Regs[R2] 一 一 5 
DSLT R1,R2,R3 置 小 于 和 i 


R0 的 值 永远 是 0, 它 可 以 用 来 合成 一 些 常 用 的 操作 ,例如 ， 


DADDIU R1,RO,# 100 // 给 寄存 器 民 装 入 常数 100 
又 如 ， 
DRDD R1,RO,R2 // 把 寄存 器 到 中 的 数据 传送 到 寄存 器 了 


2.6.6 MIPS 的 控制 指令 


表 2.14 给 出 了 MIPS 的 几 种 典型 的 跳 转 和 分 支 指令 。 跳 转 是 无 条 件 转移 的 ,而 分 支 则 
都 是 条 件 转移 的 。 根 据 跳 转 指 令 确定 目标 地 址 的 方式 不 同 以 及 跳 转 时 是 否 链接 , 可 以 把 跳 
转 指令 分 成 4 种 。 在 MIPS 中 ,确定 转移 目标 地 址 的 一 种 方法 是 把 指令 中 的 26 位 偏 移 量 左 
移 2 位 (因为 指令 字 长 都 是 4 个 字 节 ) 后 .替换 程序 计数 器 的 低 28 位 ; 另 一 种 方法 是 由 指令 
中 指定 的 一 个 寄存 器 来 给 出 转移 目标 地 址 , 即 间接 跳 转 。 简 单 跳 转 很 简单 ,就 是 把 目标 地 址 
送 入 程序 计数 器 。 而 跳 转 并 链接 则 要 比 简单 跳 转 多 一 个 操作 : 把 返回 地 址 ( 即 顺序 下 一 条 
指令 的 地 址 ) 放 入 寄存 器 R31。 跳 转 并 链接 用 于 实现 过 程 调用 。 


表 2.14 典型 的 MIPS 控制 指令 
指令 举例 指令 名 称 含义 
J name 跳 转 PCae.es< name 
Regs[R31]<- PC 十 4;PCae es <— name; 


Al eame 呈 转 并 细 接 ((PC+4)—27)<name<((PC+4) +2") 
JALR R3 寄存 器 跳 转 并 链接 Regs[ R31]<-PC+4;PC<— Regs[R3] 

JR R5 寄存 器 跳 转 PC-- Regs[R5] 

BEQZ R4，name 等 于 零 时 分 支 if(Regs[ R4]==0) PC<- name; 


((PC+4)—2")<name<((PC+4)+2") 


背 令 系统 的 唐 计 


续 表 


指令 举例 指令 名 称 含义 


if(Regs[ R31]!= Regs[R4]) PC<- name; 
((PC 十 4) 一 27 ) 生 name<((PC 十 4) 十 27) 


MOVZ R1,R2,R3 等 于 零 时 移动 ii(Regs[R3] 一 一 0) Regs[R1]<- Regs[R2] 
说 明 : 除了 以 寄存 器 中 的 内 容 作为 目标 地 址 进行 跳 转 以 外 ,所 有 其 他 的 控制 指令 的 跳 转 地 址 都 是 相对 于 PC 的 。 


所 有 的 分 支 指令 都 是 条 件 转 移 的 。 分 支 条 件 由 指令 确定 ,例如 ,可 能 是 测试 某 个 寄存 器 
的 值 是 否 为 零 。 该 寄存 器 可 以 是 一 个 数据 ,也 可 以 是 前 面 一 条 比较 指令 的 结果 。MIPS 提 
供 了 一 组 比较 指令 ,用 于 比较 两 个 寄存 器 的 值 。 例 如 ,“ 置 小 于 ”指令 ,如 果 第 一 个 寄存 器 中 
的 值 小 于 第 二 个 寄存 器 的 , 则 该 比较 指令 在 目的 寄存 器 中 放置 一 个 1( 代 表 真 ) ;否则 将 放置 
一 个 0( 代 表 假 ) 。 类 似 的 指令 还 有 " 置 等 于 "“ 置 不 等 于 等。 这 些 比 较 指令 还 有 一 套 与 立 
即 数 进行 比较 的 形式 。 

有 的 分 支 指令 可 以 直接 判断 寄存 器 的 内 容 是 否 为 负 , 或 者 比较 两 个 寄存 器 是 否 相 等 。 

分 支 的 目标 地 址 由 16 位 带 符号 偏 移 量 左 移 两 位 后 和 PC 相 加 的 结果 来 决定 。 另 外 ,还 
有 一 条 浮 点 条 件 分 支 指令 ,该 指令 通过 测试 浮 点 状态 寄存 器 来 决定 是 否 进行 分 支 。 


2.6.7 MIPS 的 浮 点 操作 


浮 点 指令 对 浮 点 寄存 器 中 的 数据 进行 操作 ,并 由 操作 码 指出 操作 数 是 单 精度 (SP) 还 是 
双 精 度 (DP) 的 。 在 指令 助 记 符 中 ,用 后 级 S 和 D 分 别 表示 操作 数 是 单 精 度 还 是 双 精 度 浮 点 
数 。 例 如 ,MOV.S 和 MOV. D 分 别 表示 把 一 个 单 精 度 浮 点 寄存 器 或 一 个 双 精 度 浮 点 寄存 
器 中 的 值 复制 到 另 一 个 同类 型 的 寄存 器 中 。MFC1 和 MTC1 是 在 一 个 单 精 度 浮 点 寄存 器 
和 一 个 整数 寄存 器 之 间 传 送 数 据 。 另 外 ,MIPS 还 设置 了 在 整数 与 浮 点 之 间 进 行 相互 转换 
的 指令 。 

浮 点 操作 包括 加 、 减 、 乘 、 除 ,分 别 有 单 精度 和 双 精 度 指 令 。 例 如 ,加 法 指令 ADD. D( 双 
精度 ) 和 ADD. S( 单 精度 ) ,减法 指令 SUB. D 和 SUB. S 等 。 浮 点 数 比较 指令 会 根据 比较 结 
果 设 置 浮 点 状态 寄存 器 中 的 某 一 位 ,以 便于 后 面 的 分 支 指令 BC1T( 若 真 则 分 支 ) 或 BC1F 
( 若 假 则 分 支 ) 测 试 该 位 ,以 决定 是 否 进行 分 支 。 


BNE R3, R4,name 不 相等 时 分 支 


习 题 2 


2.1 解释 下 列 名 词 。 
堆栈 型 机 器 累加 器 型 机 器 。 ”通用 寄存 器 型 机 器 。 CISC 


RISC 寻 址 方式 数据 表示 
2.2 区别 不 同 指令 系统 结构 的 主要 因素 是 什么 ? 根据 这 个 主要 因素 可 将 指令 系统 结 
构 分 为 哪 三 类 ? 


2.3 常见 的 三 种 通用 寄存 器 型 机 器 的 优 缺 点 各 有 哪些 ? 
2.4 指令 系统 应 满足 哪 几 个 基本 要 求 ? 
2.5 指令 系统 结构 设计 所 涉及 的 内 容 有 哪些 ? 


计算 胡 系 统 结 攀 裁 程 ( 莲 2 版 ) 


2.6 简 述 CISC 指令 集结 构 功 能 设计 的 主要 目标 。 从 当前 的 计算 机 技术 观点 来 看 ， 
CISC 指令 集结 构 的 计算 机 有 什么 缺点 ? 

2.7 简 述 RISC 指令 集结 构 的 设计 原则 。 

2.8 指令 中 表示 操作 数 类 型 的 方法 有 哪 几 种 ? 

2.9 表示 寻 址 方式 的 主要 方法 有 哪些 ? 简 述 这 些 方法 的 优 缺 点 。 

2.10 ”通常 有 哪 几 种 指令 格式 ? 简 述 其 适用 范围 。 

2.11 某 台 处 理 机 的 各 条 指令 使 用 频 度 如 下 表 所 示 。 


指 令 使 用 频 度 指 令 使 用 频 度 指 令 使 用 频 度 
ADD 43% JOM 6% CIL 2% 
SUB 13% STO 5% CLA 22% 
JMP 7% SHR 1% STP 1% 


请 分 别 设计 这 9 条 指令 操作 码 的 赫 夫 曼 编 码 、3/3/3 扩展 编码 和 2/7 扩展 编码 ,并 计算 
这 三 种 编码 的 平均 码 长 。 

2.12 某 机 器 的 指令 字 长 为 16 位 , 设 有 单 地 址 指令 和 双 地 址 指令 两 类 指令 。 若 每 个 地 
址 字段 均 为 6 位 , 且 双 地 址 指令 有 A 条 , 问 单 地 址 指令 最 多 可 以 有 多 少 条 ? 

2.13 某 处 理 机 的 指令 系统 要 求 有 : 三 地 址 指令 4 条 , 单 地 址 指令 255 条 , 零 地 址 指令 
16 条 。 设 指令 字 长 为 12 位 ,每 个 地 址 码 长 度 为 3 位 。 问 能 否 用 扩展 编码 为 其 操作 码 编码 ? 
如 果 要 求 单 地 址 指令 为 254 条 ,能 否 对 其 操作 码 扩展 编码 ? 说 明理 由 。 


第 章 
9 流水 线 技术 


内 容 提要 

(1) 流水 线 的 基本 概念 ; 

(2) 流水 线 的 性 能 指标 ; 

(3) 非 线性 流水 线 的 调度 ; 

(4) 流水 线 的 相关 与 冲突 ; 

(5) 流水 线 的 实现 (以 MIPS 为 例 )。 


3.1 流水 线 的 基本 概念 


3.1.1 什么 是 流水 线 


工业 上 的 流水 线 大 家 一 定 都 很 熟悉 了 ,例如 汽车 装配 生产 流水 线 等 。 在 这 样 的 流水 线 
中 ,整个 装配 过 程 被 分 为 多 道 工 序 , 每 道 工 序 由 一 个 人 (或 多 人 ) 完 成 ,各 道 工序 所 花 的 时 间 
也 差不多 。 整 条 流水 线 流动 起 来 后 ,每 隔 一 定 的 时 间 间 隔 ( 差 不 多 就 是 一 道 工 序 的 时 间 ) 就 
有 一 辆 汽车 下 线 。 如 果 我 们 跟踪 一 辆 汽车 的 装配 全 过 程 , 就 会 发 现 其 总 的 装配 时 间 并 没有 
缩短 ,但 由 于 多 辆 车 的 装配 在 时 间 上 错开 后 ,重叠 进行 ,因此 最 终 能 达到 总 体 装 配 速度 (吞吐 
率 ) 的 提高 。 

在 计算 机 中 也 可 以 采用 类 似 的 方法 ,把 一 个 重复 的 过 程 分 解 为 若干 个 子 过 程 ( 相 当 于 上 
面 的 工序 ) ,每 个 子 过 程 由 专门 的 功能 部 件 来 实现 。 把 多 个 处 理 过 程 在 时 间 上 错开 ,依次 通 
过 各 功能 段 , 这样, 每 个 子 过 程 就 可 以 与 其 他 的 子 过 程 并 行进 行 。 这 就 是 流水 线 技术 
(pipelining)。 流 水 线 中 的 每 个 子 过 程 及 其 功能 部 件 称 为 流水 线 的 级 或 段 (stage) , 段 与 段 
互 连 接 形成 流水 线 。 流 水 线 的 段 数 称 为 流水 线 的 深度 (Pipeline Depth) 。 

把 流水 线 技 术 应 用 于 指令 的 解释 执行 过 程 , 就 形成 了 指令 流水 线 。 把 流水 线 技术 应 用 
于 运算 的 执行 过 程 ,就 形成 了 运算 操作 流水 线 ,也 称 为 部 件 级 流水 线 。 图 3. 1 是 一 条 浮 点 加 
法 流水 线 , 它 把 执行 过 程 分 解 为 求 阶 差 .对 阶 、 尾 数 相 加 、 规 格 化 4 个子 过 程 ,每 一 个 子 过 程 
在 各 自 独 立 的 部 件 上 完成 。 如 果 各 段 的 时 间 相 等 ,都 是 At, 那 么 ,虽然 完成 一 次 浮 点 加 法 所 
需要 的 总 时 间 ( 从 “入 ”到 “出 ”) 还 是 4At, 但 车 在 输入 端 连续 送 入 加 法 任务 , 则 从 加 法 器 的 输 
出 端 来 看 , 却 是 每 隔 一 个 At 就 能 出 一 个 浮 点 加 法 结果 。 因 此 ,该 流水 线 能 把 浮 点 加 法 运算 
的 速度 提高 3 倍 。 


计算 机 系统 结构 示 程 (第 2 版 ) 


入 


1 


~| 求 阶 差 | 对 阶 
Af 


At 


出 
尾数 相 加 一 -一 规格 化 “| 一 
A 


At 


图 3.1 浮 点 加 法 流水 线 


一 般 采 用 时 空 图 来 描述 流水 线 的 工作 过 程 。 图 3.2 是 上 述 4 段 流水 线 的 时 空 图 。 图 中 
横 坐 标 表 示 时 间 , 纵 坐 标 表示 空间 , 即 流水 线 中 的 流水 段 。 格 子 中 的 数字 1 代表 第 1 个 运 
算 ,2 代表 第 2 个 运算 …… 。 第 1 个 运算 在 时 刻 0 进入 流水 线 ;第 2 个 运算 在 时 刻 1 进入 流 
水 线 , 同 时 第 1 个 运算 离开 “ 求 阶 差 " 段 而 进入 * 对 阶 ” 段 ;第 3 个 运算 在 时 刻 2 进入 流水 线 ， 
同时 第 1 个 运算 离开 “对 阶 ? 段 而 进入 “尾数 相 加 ? 段 ,第 2 个 运算 离开 “ 求 阶 差 " 段 而 进入 “对 
阶 ? 段 ;第 4 个 运算 在 时 刻 3 进入 流水 线 , 同 时 第 1 个 运算 离开 “尾数 相 加 ” 段 而 进入 “规格 
化 " 段 ,第 2 个 运算 离开 “对 阶 ” 段 而 进入 “尾数 相 加 ” 段 ,第 3 个 运算 离开 “ 求 阶 差 " 段 而 进入 
“对 阶 ” 段 ;以 此 类 推 。 


空间 | 

通过 时 间 | | 排 空 时 间 | 
1 
规格 化 1|2|13|4 | 
尾数 相 加 一 医 基 医 到 区 二 国 国 | "| | 
对 阶 | 1|2|13|4 | | | 
求 阶 差 | 1 | 2|13|4 | | | 
0 1 2 3 6 0 pa bt3 时 间 


图 3.2 浮 点 加 法 流水 线 的 时 空 图 


从 上 面 的 分 析 可 以 看 出 ,流水 技术 有 以 下 特点 : 

(1) 流水 线 把 一 个 处 理 过 程 分 解 为 若干 个 子 过 程 ,每 个 子 过 程 由 一 个 专门 的 功能 部 件 
来 实现 。 因 此 ,流水 线 实际 上 是 把 一 个 大 的 处 理 功 能 部 件 分 解 为 多 个 独立 的 功能 部 件 , 并 依 
靠 它们 的 并 行 工作 来 提高 处 理 速 度 (吞吐 率 )。 

(2) 流水 线 中 各 段 的 时 间 应 尽 可 能 相等 ,否则 将 引起 流水 线 堵塞 和 断 流 ,因为 时 间 最 长 
的 段 将 成 为 流水 线 的 瓶颈 (Bottleneck of a Pipeline) .此 时 流水 线 中 的 其 他 功能 部 件 就 不 能 
充分 发 挥 作用 了 。 因 此 瓶颈 问题 是 流水 线 设计 中 必须 解决 的 。 

(3) 流水 线 每 一 个 段 的 后 面 都 要 有 一 个 缓冲 寄存 器 ( 锁 存 器 ) , 称 为 流水 寄存 器 。 其 作 
用 是 在 相 邻 的 两 段 之 间 传 送 数据 ,以 提供 后 面 流水 段 要 用 到 的 信息 。 其 另 一 个 作用 是 隔离 
各 段 的 处 理工 作 ,避免 相 邻 流水 段 电路 的 相互 打扰 。 

(4) 流水 技术 适合 于 大 量 重复 的 时 序 过 程 , 只 有 在 输入 端 不 断 地 提供 任务 ,才能 充分 发 
挥 流水 线 的 效率 。 

(5) 流水 线 需要 有 通过 时 间 和 排 空 时 间 。 它 们 分 别 是 指 第 一 个 任务 和 最 后 一 个 任务 从 
进入 流水 线 到 流出 结果 的 那个 时 间 段 ,如 图 3. 2 所 示 。 在 这 两 个 时 间 段 中 ,流水 线 都 不 是 满 
负荷 的 。 经 过 “通过 时 间 ? 后 ,流水 线 进 入 满载 工作 状态 , 整 条 流水 线 的 效率 才能 得 到 充分 
发 挥 。 


3.1.2 流水 线 的 分 类 


流水 线 可 以 从 不 同 的 角度 和 观点 来 分 类 ,下 面 是 几 种 常见 的 分 类 。 

1. 部 件 级 流水 线 、 处 理 机 级 流水 线 及 系统 级 流水 线 

按照 流水 技术 用 于 计算 机 系统 的 等 级 不 同 , 可 以 把 流水 线 分 为 3 种 : 部 件 级 流水 线 、 处 
理 机 级 流水 线 和 系统 级 流水 线 。 

部 件 级 流水 线 是 把 处 理 机 中 的 部 件 进行 分 段 ,再 把 这 些 分 段 相 互 连 接 而 成 的 。 它 使 得 
运算 操作 能 够 按 流水 方式 进行 。 图 3. 1 中 的 浮 点 加 法 流水 线 就 是 一 个 典型 的 例子 。 这 种 流 
水 线 也 称 为 运算 操作 流水 线 (Arithmetic Pipeline)。 

处 理 机 级 流水 线 又 称 指令 流水 线 (Instruction Pipeline)。 它 是 把 指令 的 执行 过 程 按照 
流水 方式 进行 处 理 , 即 把 一 条 指令 的 执行 过 程 分 解 为 若干 个 子 过 程 ,每 个 子 过 程 在 独立 的 功 
能 部 件 中 执行 。3. 4. 1 节 中 论述 的 5 段 指 令 流 水 线 就 是 一 个 例子 . 它 能 同时 重 琶 执行 5 条 
指令 。 

系统 级 流水 线 是 把 多 个 处 理 机 串 行 连接 起 来 ,对 同一 数据 流 进行 处 理 ,每 个 处 理 机 完成 
整个 任务 中 的 一 部 分 。 前 一 台 处 理 机 的 输出 结果 存 和 人 存储 器 中 ,作为 后 一 台 处 理 机 的 输入 。 
这 种 流水 线 又 称 宏 流水 线 (Macro Pipeline) 。 

2. 单 功能 流水 线 与 多 功能 流水 线 

这 是 按照 流水 线 所 完成 的 功能 来 分 类 的 。 

1) 单 功能 流水 线 CUnifunction Pipeline) 

单 功 能 流水 线 是 指 流水 线 各 段 之 间 的 连接 固定 不 变 、 只 能 完成 一 种 固定 功能 的 流水 线 。 
如 前 面 介 绍 的 浮 点 加 法 流水 线 就 是 单 功能 流水 线 。 若 要 完成 多 种 功能 ,可 采用 多 条 单 功能 
流水 线 。 例 如 Cray-l 巨型 机 有 12 条 单 功能 流水 线 。 

2) 多 功能 流水 线 (Multifunction Pipeline) 

多 功能 流水 线 是 指 各 段 可 以 进行 不 同 的 连接 ,以 实现 不 同 功能 的 流水 线 。 美 国 TI 公 
司 ASC 处 理 机 中 采用 的 运算 流水 线 就 是 多 功能 流水 线 , 它 有 8 个 功能 段 , 按 不 同 的 连接 可 
以 实现 浮 点 加 减法 运算 和 定点 乘法 运算 ,如 图 3.3 所 示 。 

3. 静态 流水 线 与 动态 流水 线 

多 功能 流水 线 可 以 进一步 分 为 静态 流水 线 和 动态 流水 线 两 种 。 

1) 静态 流水 线 (Static Pipeline) 

静态 流水 线 是 指 在 同一 时 间 内 ,多 功能 流水 线 中 的 各 段 只 能 按 同 一 种 功能 的 连接 方式 
工作 的 流水 线 。 当 流水 线 要 切换 到 另 一 种 功能 时 ,必须 等 前 面 的 任务 都 流出 流水 线 之 后 , 才 
能 改变 连接 。 例 如 ,上 述 ASC 的 8 段 只 能 或 者 按 浮 点 加 减 运算 连接 方式 工作 ,或 者 按 定 点 
乘 运算 连接 方式 工作 。 在 图 3.4 中 , 当 要 在 个 浮 点 加 法 后 面 进行 定点 乘法 时 ,必须 等 最 后 
一 个 浮 点 加 法 做 完 、 流 水 线 排 空 后 ,才能 改变 连接 ,开始 新 的 运算 。 

2) 动态 流水 线 (Dynamic Pipeline) 

动态 流水 线 是 指 在 同一 时 间 内 ,多 功能 流水 线 中 的 各 段 可 以 按照 不 同 的 方式 连接 ,同时 
执行 多 种 功能 的 流水 线 。 它 允许 在 某 些 段 正在 实现 某 种 运算 时 , 另 一 些 段 却 在 实现 另 一 种 
运算 。 当 然 , 多 功能 流水 线 中 的 任何 一 个 功能 段 只 能 参加 到 一 种 连接 中 。 动 态 流水 线 的 优 
点 是 : 更 加 灵活 ,能 提高 各 段 的 使 用 率 ,能 提高 处 理 速度 ,但 其 控制 复杂 度 增 加 了 。 
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1 
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4 相 加 4 相 加 
1 
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1 1 
8 输出 8 输出 8 输出 
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(a) 分 段 (b) 浮 点 加 法 连接 (c) 定点 乘法 连接 


图 3.3 ASC 处 理 机 的 多 功能 流水 线 


2 浮 点 加 法 定点 乘法 
8 Y | | hs 加 一 | = 
7 | 二 | 学 站 三 
1 1 上 1 1 | 1 1 -一 一 一 
6 1 1 1 1 1 1 1 | 一 | 二 | 三 | 四 
5 1|2|3 | | | 1 和 
4 站 | 交 | nil | | 局 环 
3 国医 司 医 : nll a | | | | | 
2 1 | .2.3 -|| 上 ! 
Li 213 nlln 1 | | | 一 | 二 | 三 | 四 1 加 
时 间 
图 3.4 静态 流水 线 的 时 空 图 
对 于 图 3. 3 的 情况 ,动态 流水 线 的 工作 过 程 如 图 3. 5 所 示 。 这 里 ,定点 乘法 提前 开始 了 


(相对 于 静态 流水 线 而 言 )。 可 以 提前 多 少 取决 于 任务 的 流动 情况 ,要 保证 不 能 在 公用 段 发 
生 冲 突 。 

对 于 静态 流水 线 来 说 ,只 有 当 输 入 的 是 一 串 相同 的 运算 任务 时 ,流水 的 效率 才能 得 到 充 
分 的 发 挥 。 如 果 交 替 输 入 不 同 的 运算 任务 , 则 流水 线 的 效率 会 降低 到 和 顺序 处 理 方式 的 一 
样 。 而 动态 流水 线 则 不 同 , 它 允 许多 种 运算 在 同一 条 流水 线 中 同时 进行 。 因 此 ,在 一 般 情况 
下 ,动态 流水 线 的 效率 比 静 态 流水 线 的 高 。 但 是 ,动态 流水 线 的 控制 要 复杂 得 多 。 所 以 目前 
大 多 数 的 流水 线 是 静态 流水 线 。 

4. 线性 流水 线 与 非 线 性 流水 线 

按照 流水 线 中 是 否 存在 反馈 回路 ,可 以 把 流水 线 分 为 以 下 两 类 。 


空间 | _ 
浮 点 加 法 定点 乘 

8 1|2|3|…|:…|ciazl 一 | 三 | 三 | 四 | 五 
7 ! | ! | ! 1 一 | 二 | 三 | 四 | 五 

6 1 1 1 1 1 一 | 二 | 三 | 五 

旨 1 2 入 | -1 | 于 1 f 1 

4 | 

3 1|2|3 ey 必 本 证 | 1 

2 1|213 ml| an Hs 

| 必 | 2 | “rml|n h 二 三 1 三 让 轴 放 入 


时 间 
图 3.5 动态 流水 线 的 时 空 图 


1) 线性 流水 线 (Linear Pipeline) 

线性 流水 线 是 指 各 段 串 行 连接 .没有 反馈 回路 的 流水 线 。 数 据 通过 流水 线 中 的 各 段 时 ， 
每 一 个 段 最 多 只 流 过 一 次 。 

2) 非 线性 流水 线 (Nonlinear Pipeline) 

非 线性 流水 线 是 指 各 段 除 了 有 串 行 的 连接 外 ,还 有 反馈 回路 的 流水 线 。 图 3. 6 是 一 个 
非 线性 流水 线 的 示意 图 。 它 由 4 段 组 成 ,经 反馈 回路 和 多 路 开关 使 某 些 段 要 多 次 通过 。S 
的 输出 可 以 反馈 到 S; ,而 S, 的 输出 可 以 反馈 到 Si 。 


一 一 输出 


| 二 ss: o's 


图 3.6 非 线 性 流水 线 示 意图 


非 线性 流水 线 常用 于 递归 或 组 成 多 功能 流水 线 。 在 非 线性 流水 线 中 ,一 个 重要 的 问题 
是 确定 什么 时 候 向 流水 线 引 进 新 的 任务 ,才能 使 该 任务 不 会 与 先前 进入 流水 线 的 任务 发 生 
争 用 流水 段 的 冲突 。 这 就 是 所 谓 的 非 线性 流水 线 的 调度 问题 ,3. 3 节 将 详细 讨论 这 个 问题 。 

5. 顺序 流水 线 与 乱 序 流水 线 

根据 流水 线 中 任务 流入 和 流出 的 顺序 是 否 相 同 .可 以 把 流水 线 分 为 以 下 两 种 。 

1) 顺序 流水 线 (In-order Pipeline) 

在 顺序 流水 线 中 ,流水 线 输 出 端 任务 流出 的 顺序 与 输入 端 任务 流入 的 顺序 完全 相同 。 
每 一 个 任务 在 流水 线 的 各 段 中 是 一 个 跟着 一 个 顺序 流动 的 。 

2) 乱 序 流水 线 (Out-of-order Pipeline) 

在 乱 序 流水 线 中 ,流水 线 输 出 端 任 务 流出 的 顺序 与 输入 端 任 务 流入 的 顺序 可 以 不 同 , 允 
许 后 进入 流水 线 的 任务 先 完成 。 这 种 流水 线 又 称 为 无 序 流水 线 、 错 序 流水 线 、 异 步 流水 线 。 

通常 把 指令 执行 部 件 中 采用 了 流水 线 的 处 理 机 称 为 流水 线 处 理 机 。 如 果 处 理 机 具有 
向 量 数据 表示 和 向 量 指令 , 则 称 为 向 量 流水 处 理 机 ,简称 向 量 机 ;否则 就 称 为 标量 流水 处 
理 机 。 
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3.2 流水 线 的 性 能 指标 


衡量 流水 线性 能 的 主要 指标 有 吞吐 率 、 加 速 比 和 效率 。 
3.2.1 流水 线 的 吞吐 率 


流水 线 的 吞吐 率 TP(ThroughPut) 是 指 在 单位 时 间 内 流水 线 所 完成 的 任务 数量 或 输出 
结果 的 数量 。 


LPs (3.1) 
加 


其 中 为 任务 数 ,T 是 处 理 完 个 任务 所 用 的 时 间 。 该 式 是 计算 流水 线 吞 吐 率 最 基本 的 
公式 。 

1. 各 段 时 间 均 相等 的 流水 线 

图 3.7 是 各 段 时 间 均 相等 (都 是 Az) 的 线性 流水 线 的 时 空 图 。 这 里 假设 段 数 为 &, 连 续 
输入 nn 个 任务 。 第 一 个 任务 输入 后 ,经 过 kAt 的 时 间 从 输出 端 流 出 (完成 )。 此 后 的 n 一 1 个 
Al 中 ,每 个 At 时 间 完 成 一 个 任务 。 在 这 种 情况 下 ,流水 线 完成 n 个 连续 任务 所 需要 的 总 时 
间 为 


Ti = kAt+ (nO—1)At= (k++n— DAt (3..2) 
将 式 (3.2) 代 入 式 (3.1) ,得 流水 线 的 实际 吞吐 率 为 
二 n 
TY ‘S09 
这 种 情况 下 的 最 大 吞吐 率 为 
n 1 
TPmx = lim (k++n—1I)At At 5 
最 大 吞吐 率 与 实际 吞吐 率 的 关系 是 
n 5 
dn (8.5 
空间 
5, | 1 2 | 1 2 “0 | nl n | 
S3 1 | 2 3 | 2 nl|an |: 
| 
5 1 | 2 | 3 加 区 mljn | 
S| 1 | 2 3 | 4 | -|e n | 
|_ Ar 了 (nDAr 时 间 
一 - 2 


图 3.7 各 段 时 间 相 等 的 流水 线 时 空 图 


从 式 (3.5) 可 以 看 出 ,流水 线 的 实际 吞吐 率 总 是 小 于 最 大 吞吐 率 , 它 除了 与 每 个 段 的 时 
间 有 关外 ,还 与 流水 线 的 段 数 k 和 输入 流水 线 中 的 任务 数 n 有 关 。 只 有 当 n 二 二 k 时 , 才 有 


有 
2. 各 段 时 间 不 完全 相等 的 流水 线 章 


在 如 图 3. 8(a) 所 示 的 流水 线 中 ,各 段 时 间 不 完全 相等 。 其 中 S, ,S: ,Ss ,Ss 各 上 段 的 时 间 
都 是 At,S 的 时 间 是 3At, 是 其 他 各 段 时间 的 3 倍 。S, 是 该 流水 线 的 瓶颈 段 。 除 了 第 一 个 
任务 外 ,其 余 (z 一 1) 个 任务 必须 按 瓶 颈 段 的 时 间 间 隔 max(An ,At,,… ,At ) 连 续 流入 流水 
线 。 图 3. 8(b) 是 该 流水 线 的 时 空 图 ,图 中 的 灰色 方 格 表 示 相 应 流水 段 在 这 一 段 时 间 内 是 空 
闲 的 。 


An=Ar Ap=At An=Af An=3Ar An=Ar 
人 一 | 局 -| 5 -| 5 -| 5 rl S5 一 出 
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[一 一 
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图 3.8 各 段 时 间 不 等 的 流水 线 及 其 时 空 图 


一 般 地 ,各 有 段 时 间 不 等 的 流水 线 的 实际 吞吐 率 为 
TP = 2 (3.6) 
>) An 十 (一 1)max(CAh ,At …,At) 
其 中 Aa 为 第 i 段 的 时 间 , 共 有 & 个 段 。 分 母 中 的 第 一 部 分 是 流水 线 完成 第 一 个 任务 所 用 的 
时 间 ,第 二 部 分 是 完成 其 余 n 一 1 个 任务 所 用 的 时 间 。 
流水 线 的 最 大 吞吐 率 为 


1 
max(Ati,At2,** ,At:) 


(3.7) 


TP 


对 于 图 3. 8 的 例子 ,最 大 吞吐 率 为 


一 -1 
3At 


从 式 (3.6) 和 式 (3.7) 可 以 看 出 , 当 流 水 线 各 段 的 时 间 不 完全 相等 时 ,流水 线 的 最 大 吞吐 
率 和 实际 乔 吐 率 由 时 间 最 长 的 那个 段 决定 ,这 个 段 就 成 了 整 条 流水 线 的 瓶颈 。 这 时 ,瓶颈 段 
一 直 处 于 忙碌 状态 ,而 其 余 各 段 则 在 许多 时 间 内 都 是 空闲 的 ,硬件 使 用 效率 低 。 

可 以 用 下 面 的 两 种 方法 来 消除 瓶颈 段 。 

1) 细 分 瓶颈 段 

该 方法 是 把 流水 线 中 的 瓶颈 段 切 分 为 几 个 独立 的 功能 段 ,从 而 使 流水 线 各 段 的 处 理 时 
间 都 相等 。 在 图 3. 9 中 ,把 瓶颈 段 S, 细 分 为 三 个 子 流水 段 : Sa ,St ,Sts。 这 样 ,所 产生 的 
流水 线 的 各 段 时 间 均 为 At, 每 隔 At 流出 一 个 结果 。 


Ths (3.8) 
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Ar Ar 全 


图 3.9 细 分 瓶颈 段 


2) 重复 设置 瓶颈 段 

如 果 无 法 把 瓶颈 段 再 细 分 ,就 可 以 采用 重复 设置 瓶颈 段 的 方法 来 解决 问题 。 重 复 设 置 
的 段 并 行 工作 ,在 时 间 上 依次 错开 处 理 任务 。 这 种 方法 的 缺点 是 控制 逻辑 比较 复杂 ,所 需要 
的 硬件 也 增加 了 。 

图 3. 10 给 出 了 把 S, 重复 设置 后 的 流水 线 及 时 空 图 。 这 里 ,从 Ss 到 并 列 的 S4, ,Sa ,Si 
之 间 需 要 设置 一 个 数据 分 配器 , 它 把 从 Ss 输出 的 第 一 个 任务 分 配给 S1, ,第 二 个 任务 分 配给 
Su ,第 三 个 任务 分 配给 Se, 之 后 按 此 重复 。 而 在 Se,Si,St 到 Ss 之 间 需 要 设置 一 个 数据 
收集 器 ,依次 分 时 将 数据 收集 到 Ss 中 。 改 进 后 的 流水 线 能 做 到 每 隔 Ar 流出 一 个 结果 。 
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图 3.10 重复 设置 瓶颈 段 及 对 应 的 流水 线 时 空 图 


对 于 图 3. 8 的 例子 ,这 两 种 方法 都 能 使 改进 后 的 流水 线 的 吞吐 率 达 到 
一 工 
TPo. 一 总 C3 


3.2.2 流水 线 的 加 速 比 


流水 线 的 加 速 比 (speedup) 是 指使 用 顺序 处 理 方式 处 理 一 批 任务 所 用 的 时 间 与 流水 线 

使 用 流水 处 理 方式 处 理 同一 批 任务 所 用 的 时 间 之 比 。 设 顺序 执行 所 用 的 时 间 为 T,, 按 流水 

线 方 式 处 理 所 用 的 时 间 为 T, 则 流水 线 的 加 速 比 为 
T, 


一 元 (3. 10) 


假设 流水 线 各 段 时 间 都 是 Ar, 则 一 条 & 段 流水 线 完 成 个 连续 任务 所 需要 的 时 间 为 
Ti 二 (k 十 n 一 1) At。 这 nn 个 任务 若是 顺序 执行 , 则 所 需要 的 时 间 为 T, 王 nkAt。 代 入 
式 (3.10) ,得 流水 线 的 实际 加 速 比 为 


a (3.11) 
这 种 情况 下 的 最 大 加 速 比 为 
nk 
Sm — limp 一 人 C3. 18) 


即 当 二 二 k 时 ,流水 线 的 加 速 比 等 于 流水 线 的 段 数 。 从 这 个 意义 上 看 ,流水 线 的 段 数 
越 多 越 好 ,但 这 会 给 流水 线 的 设计 带 来 许多 问题 ,对 此 后 面 将 作 进 一 步 讨 论 。 

当 流 水 线 的 各 有 段 时 间 不 完全 相等 时 ,一 条 上 & 段 流水 线 完成 个 连续 任务 的 实际 加 速 
比 为 


S 二 (3. 13) 
总 Atit (nC— 1)max(Ani,Ats,** Ab) 
i=1 


3.2.3 流水 线 的 效率 


流水 线 的 效率 (efficiency) 即 流水 线 设备 的 利用 率 , 它 是 指 流水 线 中 的 设备 实际 使 用 时 
间 与 整个 运行 时 间 的 比值 。 由 于 流水 线 有 通过 时 间 和 排 空 时 间 , 所 以 在 连续 完成 个 任务 
的 时 间 内 ,各 段 并 不 是 满 负荷 工作 的 。 

如 果 各 有 段 时 间 相等 ,如 图 3.7 所 示 , 则 各 有 段 的 效率 e; 是 相同 的 。 


nAt n 


ee er (3.14) 
整 条 流水 线 的 效率 为 
= 十 本 十 “十 本 Ar 

E 到 kT (3.15) 

还 可 以 写成 

n 

B= (3. 16) 

最 高 效率 为 
Ew 一 lim #1 一 1 (C30.173 


显然 , 当 n 二 二 k 时 ,流水 线 的 效率 接近 最 大 值 1。 这 时 流水 线 的 各 段 均 处 于 忙碌 状态 。 
根据 式 (3. 3) 和 式 (3. 16) ,可 得 
od ao (3. 18) 
即 当 流水 线 各 段 时 间 相 等 时 ,流水 线 的 效率 与 吞吐 率 成 正比 。 
根据 式 (3. 11) 和 式 (3. 16) ,可 得 


下 一 天 (3. 19) 


即 流水 线 的 效率 是 流水 线 的 实际 加 速 比 S 与 它 的 最 大 加 速 比 & 的 比值 。 只 有 当 E=1 时 ， 
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S 一 A, 实 际 加 速 比 达到 最 大 。 

式 (3.15) 中 的 分 母 kT 实际 上 就 是 时 空 图 中 A 个 段 和 流水 总 时 间 T 所 围 成 的 总 面 
积 ,而 分 子 knAt 则 是 时 空 图 中 个 任务 实际 占用 的 总 面积 。 所 以 ,从 时 空 图 上 看 ,效率 就 是 
n 个 任务 占用 的 时 空 面积 和 个 段 总 的 时 空 面 积 之 比 。 

虽然 当 流 水 线 的 各 段 时 间 不 等 时 ,各 有 段 的 效率 会 不 同 ,但 同样 也 有 上 述 的 结论 。 因 此 ， 
计算 流水 线 效率 的 一 般 公式 可 以 表示 为 


巨 二 2 个 任务 实际 占用 的 时 空 区 的 面积 
k 个 段 总 的 时 空 区 的 面积 


画 出 流水 线 的 时 空 图 ,然后 根据 式 (3. 20) 来 计算 效率 ,是 一 种 比较 直观 通用 的 方法 。 对 
于 线性 流水 线 , 非 线性 流水 线 .多 功能 流水 线 、 任 务 不 连续 的 情况 等 都 适用 。 
在 各 段 时间 不 等 的 情况 下 ,& 段 流 水 线 连 续 处 理 n 个 任务 的 流水 线 效率 为 


上 
ne 3 Ai 
i=1 


大 
4[ >) An 十 (一 D。max(Anv At, ,At)] 
i=1 


(3. 20) 


E (3.21) 


3.2.4 流水 线 的 性 能 分 析 举 例 


例 3.1 要 在 图 3.3 所 示 的 静态 流水 线 上 计算 I (Ai 十 Bi) ,流水线 的 输出 可 以 直接 


返回 输入 端 或 暂 存 于 相应 的 流水 寄存 器 中 , 试 计算 其 吞吐 率 、 加 速 比 和 效率 。 
解 首先 ,应 选择 适合 流水 线 工作 的 算法 。 对 于 本 题 ,应 先 计 算 A 十 Bi、As 十 Bs、As 十 
Bs 和 Ai 十 Bi; 再 计算 (A, 十 Bi)X(As 十 B:) 和 (4A: 十 B:)X(A, 十 Bi); 然 后 求 总 的 乘积 


结果 。 
其 次 , 画 出 完成 该 计算 的 时 空 图 ,如 图 3.11 所 示 , 图 中 阴影 部 分 表示 相应 的 段 在 工作 。 
段 ABCD AxB CxD AxBxCxD 
{ttt 

8 

! | 
| 1 1 

: El 

3 国 

2 1 | | | | 

1 EY Et 4 


0123456789101112131415161718 ”时 间 
输 424344 4 C AxB 
入 B1B,B;Bs BD CxD 


图 3.11 完成 乘 加 运算 的 多 功能 静态 流水 线 时 空 图 


由 图 3. 11 可 见 , 它 在 18 个 At 的 时 间 中 ,给 出 了 7 个 结果 ,所 以 吞吐 率 为 


7 
> 18At 


如 果 不 用 流水 线 , 由 于 一 次 求 和 需 6At, 一 次 求 积 需 4At, 则 产生 上 述 7 个 结果 共 需 


流水 线 投 太 


(4X6 十 3X4)At 二 36At。 所 以 加 速 比 为 


一 36At 
?二 18Az 一 2 
该 流水 线 的 效率 可 由 阴影 区 的 面积 和 8 个 段 总 时 空 区 的 面积 的 比值 求 得 
一 4X6 十 3X4 
有 三 一 全 


该 流水 线 的 效率 很 低 , 其 主要 原因 是 ， 

QO 多 功能 流水 线 在 做 某 一 种 运算 时 ,总 有 一 些 段 是 空闲 的 ; 

@ 静态 流水 线 在 进行 功能 切换 时 ,要 等 前 一 种 运算 全 部 流出 流水 线 后 才能 进行 后 面 的 
运算 ; 

@ 运算 之 间 存 在 关联 ,后 面 有 些 运算 要 用 到 前 面 运算 的 结果 。 这 就 是 后 面 要 讨论 的 相 
关 问 题 ; 

@ 流水 线 的 工作 过 程 有 建立 与 排 空 部 分 。 

例 3.2 有 一 条 动态 多 功能 流水 线 由 5 段 组 成 (如 图 3. 12 所 示 ), 加 法 用 1、3、4、5 段 ， 
乘法 用 1.2.5 段 ,第 4 段 的 时 间 为 2At, 其 余 各 加 法 
段 时 间 均 为 At, 而 且 流水 线 的 输出 可 以 直接 返 二 人 二 更 
回 输入 端 或 暂 存 于 相应 的 流水 寄存 器 中 。 若 在 -| | 上-|: i 
Ai Ar 乘法 
图 3.12 完成 加 、 乘 运算 的 多 功能 动态 流水 线 


该 流水 线 上 计算 > (A, x Bi), 试 计算 其 乔 吐 


率 、 加 速 比 和 效率 。 
解 首先 ,应 选择 适合 流水 线 工作 的 算法 。 对 于 本 题 ,应 先 计算 A X Bi 、A;s XB,、A;X 
B 和 A,XB,; 再 计算 (A, XBi) 十 (AsX Bs) 和 (A XB,) 十 (A4 XB); 然 后 求 总 的 累加 


结果 。 
其 次 , 画 出 完成 该 计算 的 时 空 图 ,如 图 3. 13 所 示 , 图 中 阴影 部 分 表示 相应 段 在 工作 。 
段 
C+D A+B+C+D 

5 A=A1XBI 
4 1 1 B=A,XB; 
3 | ! | | dhs 
， eas el 

a 1 1 1 

1 | | 
全 0 123456789 101112 1314 15 16 时 间 
并 ey C A+B 

Bl BB B Dp CHD 


图 3.13 ”完成 加 乘 运算 的 多 功能 动态 流水 线 的 时 空 图 


由 图 3. 13 可 见 , 它 在 16 个 At 的 时 间 中 ,给 出 了 7 个 结果 ,所 以 吞吐 率 为 


TI 一 NA 


如 果 不 用 流水 线 ,由 于 一 次 求 积 需 3At, 一 次 求 和 需 5At, 则 产生 上 述 7 个 结果 共 需 
(4X3 十 3X5)At 一 27At, 所 以 加 速 比 为 


CD 
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27At 
S— Tm~1.69 
该 流水 线 的 效率 可 由 阴影 区 的 面积 和 5 个 段 总 时 空 区 的 面积 的 比值 求 得 
4X3 十 3X5 
E=— ei 0. 338 
3.2.5 流水 线 设计 中 的 若干 问题 


1. 瓶颈 问题 

当 流水 线 的 各 段 时 间 相 等 时 ,其 中 的 任务 是 同步 地 每 一 个 节拍 往 前 流动 一 段 。 这 个 节 
拍 往往 就 是 机 器 的 时 钟 周期 。 当 流水 线 各 段 时 间 不 相等 时 ,时 间 最 大 的 那个 段 就 成 了 瓶颈 。 
机 器 的 时 钟 周期 取决 于 这 个 瓶颈 段 的 延迟 时 间 。 因 此 ,在 设计 流水 线 时 ,要 尽 可 能 使 各 段 时 
间 相 等 。 

2. 流水 线 的 额外 开销 

流水 线 的 额外 开销 由 两 部 分 构成 : 流水 寄存 器 延迟 和 时 钟 偏 移 开 销 。 在 非 流水 方式 
中 ,是 没有 这 个 开销 的 , 它 是 采用 流水 线 技 术 后 额外 产生 的 。 前 面 讲 过 ,流水 线 的 段 与 段 之 
间 都 要 设置 流水 寄存 器 ,而 该 寄存 器 需要 有 建立 时 间 和 传输 延迟 。 时 钟 偏 移 开销 则 是 指 流 
水 线 中 的 时 钟 到 达 各 流水 寄存 器 的 最 大 差 值 时 间 。 时 钟 到 达 各 流水 寄存 器 的 时 间 不 是 完全 
相同 的 。 

采用 流水 技术 后 ,虽然 可 以 提高 指令 执行 的 吞吐 率 , 从 而 提高 程序 的 执行 速度 ,但 流水 
线 并 不 能 真正 减少 单条 指令 的 执行 时 间 。 实 际 上 ,由 于 这 些 开 销 的 存在 ,反而 会 使 每 条 指令 
的 执行 时 间 有 所 增加 。 这 限制 了 流水 线 深度 的 增加 。 前 面 曾 指出 ,增加 流水 线 的 段 数 可 以 
提高 流水 线 的 性 能 ,但 是 流水 线段 数 的 增加 是 受到 这 些 额 外 开销 限制 的 ,一 旦 时 钟 周 期 时 间 
减少 到 和 和 额外 开销 时 间 相 接 近 的 时 候 , 流 水 线 就 没有 任何 意义 了 ,因为 这 时 在 每 个 时 钟 周期 
内 几乎 没有 时 间 来 做 有 用 的 工作 了 。 

由 于 这 些 额 外 开销 对 流水 线 的 性 能 有 较 大 的 影响 ,特别 是 当 流水 深度 比较 大 .时钟 周 期 
比较 小 时 更 是 如 此 ,所 以 设计 者 必须 选择 高 性 能 的 锁 存 器 作为 流水 寄存 器 。 

3. 冲突 问题 

在 运算 操作 流水 线 中 ,如 果 后 面 的 计算 要 用 到 前 面 的 计算 结果 ,流水 线 的 性 能 和 效率 就 
会 受到 比较 大 的 影响 。 对 于 指令 流水 线 来 说 ,也 是 如 此 。 如 果 流 水 线 中 的 指令 之 间 存 在 关 
联 , 则 它们 可 能 要 相互 等 待 ,引起 流水 线 的 停顿 。 如 何 处 理 好 冲突 问题 ,是 流水 线 设计 中 要 
解决 的 重要 问题 之 一 。 


3.3 非 线性 流水 线 的 调度 


在 线性 流水 线 中 ,由 于 每 一 个 任务 在 流水 线 的 各 段 只 经 过 一 次 ,所 以 可 以 每 个 时 钟 周期 
向 流水 线 输入 一 个 新 任务 (假设 该 流水 线 没 有 瓶颈 ) 。 这 些 任务 不 会 争 用 同一 个 流水 段 , 所 
以 线性 流水 线 的 调度 非常 简单 。 然 而 , 非 线性 流水 线 则 不 同 , 由 于 反馈 回路 的 存在 , 当 一 个 
任务 在 流水 线 中 流 过 时 ,可 能 要 多 次 经 过 某 些 段 。 在 这 种 情况 下 ,就 不 能 每 个 时 钟 周期 向 流 
水 线 送 入 一 个 新 任务 ;否则 就 会 发 生 多 个 任务 争 用 同一 段 的 冲突 现象 。 那 么 ,究竟 应 按 什么 


样 的 时 间 间 隔 向 流水 线 输入 新 任务 ,才能 既 不 发 生 功 能 段 使 用 冲突 ,又 能 使 流水 线 有 较 高 的 
吞吐 率 和 效率 呢 ? 这 就 是 流水 线 调度 所 要 解决 的 问题 。 

下 面 先 讨论 单 功能 非 线性 流水 线 的 最 优 调 度 方法 ,然后 在 此 基础 上 ,论述 多 功能 非 线性 
流水 线 的 最 优 调度 方法 。 


3.3.1 单 功 能 非 线 性 流水 线 的 最 优 调 度 


向 一 条 非 线性 流水 线 的 输入 端 连续 输入 两 个 任务 之 间 的 时 间 间 隔 称 为 非 线 性 流水 线 的 
启动 距离 (Initiation Interval) 。 而 会 引起 非 线性 流水 线 功能 段 使 用 冲突 的 启动 距离 则 称 为 
禁用 启动 距离 。 启 动 距离 和 禁用 启动 距离 一 般 都 用 时 钟 周期 数 来 表示 ,是 一 个 正 整数 。 

为 了 对 流水 线 的 任务 进行 优化 调度 和 控制 ,E. S. Davidson 等 人 提出 使 用 预约 表 
(Reservation Table) 。 这 是 一 个 二 维 表 , 其 横向 (向 右 ) 表 示 时 间 ( 一 般 用 时 钟 周期 表示 ) , 纵 
向 (向 下 ) 表 示 流 水 线 的 段 。 它 表示 当 一 个 任务 在 该 流水 线 中 流 过 时 ,对 各 段 的 使 用 情况 。 
如 果 在 第 n 个 时 钟 周期 使 用 第 & 段 , 则 在 第 k 行 和 第 n 列 的 交叉 处 的 格子 里 有 一 个 V。 反 
过 来 ,如 果 在 第 k 行 和 第 n 列 的 交叉 处 的 格子 里 有 一 个 , 则 表示 在 第 个 时 钟 周期 要 使 用 
第 上段。 这 个 表 可 以 采用 类 似 画 时 空 图 的 方法 得 到 。 图 3. 14 是 预约 表 的 一 个 例子 。 


功能 息 时 间 1|2 | |4|s|ls|l7 | | 9 
Si v | v 
5, V V M | 
5 v | 
v |y | 
5 | 


图 3.14 一 个 5 功能 段 非 线性 流水 线 预 约 表 


1. 根据 预约 表 写 出 禁止 表 FF 
禁止 表 (Forbidden List)F 是 一 个 由 禁用 启动 距离 构成 的 集合 。 可 以 很 容易 地 由 预约 
表 写 出 禁止 表 下 。 具 体 方法 是 : 对 于 预约 表 每 一 行 的 任何 一 对 ,用 它们 所 在 的 列 号 相 减 
(大 的 减 小 的 ) , 列 出 各 种 可 能 的 差 值 ,然后 删除 相同 的 , 剩 下 的 就 是 禁止 表 的 元 素 。 这 是 因 
为 对 于 同一 行 中 的 任何 一 对 ~ ,其 差 值 d 表示 在 前 一 次 使 用 该 段 后 ,间隔 d 个 时 钟 周期 ,又 
会 再 次 使 用 该 段 。 这 样 ,如 果 后 一 个 任务 正好 跟前 一 个 任务 相隔 d 个 时 钟 周期 ,那么 就 会 
在 该 段 产 生 冲 突 。 也 就 是 说 ,d 是 禁用 启动 距离 。 
在 图 3. 14 的 例子 中 ,第 一 行 的 差 值 只 有 一 个 : 8; 第 二 行 的 差 值 有 三 个 : 1,5,6; 第 三 行 
只 有 一 个 VV ,没有 差 值 ;第 四 和 第 五 行 的 差 值 都 只 有 一 个 : 1。 所 以 其 禁止 表 是 : F= (1,5， 
6,8}。 
2. 根据 禁止 表 下 写 出 初始 冲突 向 量 C。 
冲突 向 量 (Collison Vector)C 是 一 个 N 位 的 二 进 制 位 串 。 这 一 步 实际 上 是 进行 从 一 个 
集合 到 一 个 二 进 制 位 串 的 变换 ,目的 是 便于 进行 后 面 的 运算 。 
设 心 三 (cncN=i …ci…czcl), 则 
得 记 
训 有 
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显然 ,c; 王 0 表示 人 允许 间隔 ;个 时 钟 周期 后 送 入 后 续 任 务 ,c: 王 1 表示 不 允许 间隔 i 个 时 
钟 周期 后 送 和 后续 任务 。 

对 于 上 面 的 例子 ,F=={1,5,6,8) ,Co 一 (10110001)。 

3. 根据 初始 冲突 向 量 C。 画 出 状态 转换 图 

当 第 一 个 任务 流入 流水 线 后 ,初始 冲突 向 量 Co 决定 了 下 一 个 任务 需 间 隔 多 少 个 时 钟 周 
期 才 可 以 流入 。 在 第 二 个 任务 流入 后 ,哪些 时 间 间 隔 是 允许 的 ,哪些 时 间 间 隔 又 是 禁止 的 
呢 ? 也 就 是 说 ,新 的 冲突 向 量 是 怎样 的 呢 ? 假设 第 二 个 任务 是 在 与 第 一 个 任务 间隔 j 个 时 
钟 周期 流入 的 ,这 时 ,由 于 第 一 个 任务 已 经 在 流水 线 中 前 进 了 7 个 时 钟 周期 ,其 相应 的 禁止 
表 中 各 元 素 的 值 都 应 该 减 去 ) ,并 丢弃 小 于 等 于 0 的 值 。 对 冲突 向 量 来 说 ,就 是 逻辑 右 移 7 
位 (左边 补 零 )。 这 样 ,对 后 续 任务 流入 的 限制 就 是 两 个 任务 又 加 起 来 的 共同 结果 。 反 映 在 
冲突 向 量 上 ,就 是 对 它们 的 冲突 向 量 进行 “或 ”运算 , 即 

SHRO (Co) V Co 
其 中 SHR 表示 逻辑 右 移 j 位 。 

推广 到 更 一 般 的 情况 ,假设 当前 的 冲突 向 量 是 Ce ,j 是 允许 的 时 间 间 隔 , 则 新 的 冲突 向 

量 为 

SHRO (CY) VG, (3. 22) 
对 于 所 有 允许 的 时 间 间 隔 都 按 上 述 步骤 求 出 新 的 冲突 向 量 , 并 把 新 的 冲突 向 量 作为 当前 冲 
突 向 量 ,反复 使 用 上 述 步骤 ,直到 不 再 产生 新 的 冲突 向 量 为 止 。 

从 初始 冲突 向 量 Co 出 发 ,反复 应 用 上 述 步 骤 , 可 以 求 得 所 有 的 冲突 向 量 以 及 产生 这 些 
向 量 所 对 应 的 时 间 间 隔 。 由 此 可 以 画 出 用 冲突 向 量 表示 的 流水 线 状 态 转移 图 。 图 中 冲突 向 
量 之 间 用 有 向 弧 表 示 状 态 转移 的 方向 。 弧 上 的 数字 表示 引入 后 续 任务 (从 而 产生 新 的 冲突 

初始 状态 向 量 ) 所 用 的 时 间 间 隔 ( 时 钟 周期 数 ) 。 

对 于 图 3. 14 的 例子 ,GC 二 (10110001), 引 入 后 续 
任务 可 用 的 时 间 间 隔 为 2.3、4、7 个 时 钟 周期 。 如 果 采 
用 2, 则 新 的 冲突 向 量 为 (00101100) V (10110001) 一 
(10111101); 如 果 采 用 3, 则 新 的 冲突 向 量 为 
[ono ] (00010110) V (10110001) = (10110111); 如 果 采 用 
bk 4, 则 新 的 冲突 向 量 为 (00001011) V (10110001) = 
10111011 ] (10111011); 如 果 采 用 7, 则 新 的 冲突 向 量 为 

图 3.15 单 功能 流水 线 的 状态 转移 示意 图 “00000001) V (10110001) 二 (10110001), 如 图 3. 15 
所 示 。 

对 于 新 向 量 (10111101) ,其 可 用 的 时 间 间 隔 为 2 个 和 7 个 时 钟 周 期 。 用 类 似 上 面 的 方 
法 ,可 以 求 出 其 后 续 的 冲突 向 量 分 别 为 (10111101) 和 (10110001) 。 对 于 其 他 新 向 量 ,也 照 此 
处 理 。 

在 此 基础 上 ,可 以 画 出 如 图 3. 15 所 示 的 状态 转移 示意 图 。 

4. 根据 状态 转换 图 写 出 最 优 调 度 方案 

根据 流水 线 状态 图 ,由 初始 状态 出 发 ,任何 一 个 闭合 回路 即 为 一 种 调度 方案 。 例 如 
(2,7) 表 示 反 复 循环 使 用 启动 距离 2 和 7。 按 这 个 回路 所 规定 的 时 间 间 隔 , 给 流水 线 送 入 任 
务 ,就 不 会 发 生 功 能 段 使 用 冲突 。 想 要 找到 一 种 最 佳 的 调度 方案 ,使 流水 线 的 吞吐 率 最 高 ， 
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只 要 列 出 所 有 可 能 的 调度 方案 ,计算 出 每 种 方案 的 平均 时 间 间 隔 , 从 中 找 出 其 最 小 者 即 可 。 

表 3.1 给 出 了 图 3.15 的 例子 中 ,各 种 调度 方案 及 其 平均 间隔 时 间 。 从 表 中 可 以 看 出 ， 
方案 (3,4) 的 平均 间隔 时 间 为 3. 5 个 时 钟 周期 ,是 最 佳 的 ,吞吐 率 最 高 。 虽 然 方案 (4,3) 的 平 
均 间 隔 时 间 也 是 3.5, 但 由 于 它 是 先 采 用 4 个 时 钟 周期 的 间隔 ,后 采用 3 个 时 钟 周期 的 间 
隔 , 当 任务 数 是 奇数 时 ,方案 (4,3) 中 最 后 一 个 任务 是 间隔 4 个 时 钟 周期 ,而 方案 (3,4) 中 最 
后 一 个 任务 是 间隔 3 个 时 钟 周 期 。 所 以 .只 有 方案 (3,4) 是 最 优 的 。 


表 3.1 各 种 调度 策略 及 平均 延迟 拍 数 


调度 策略 平均 延迟 拍 数 调度 策略 平均 延迟 拍 数 
(2,7) 4.5 (3,4,7) 4.67 
(2,2,7) 3.67 (4,3,7) 4.67 
(8,7 5 (4,7) G8 
(3,4) 3.5 (7) 7 
(3,4,3,7) 4.25 


方案 (3,4) 是 一 种 不 等 时 间 间 隔 的 调度 方案 ,与 等 间隔 的 调度 方案 相 比 ,在 控制 上 要 复 
杂 得 多 。 为 了 简化 控制 ,也 可 以 采用 等 时 间 间 隔 的 调度 方案 ,但 吞吐 率 和 效率 往往 会 下 降 不 
少 。 在 上 述 例子 中 ,等 时 间 间 隔 的 方案 只 有 一 个 : (7) ,其 吞吐 率 下降 了 一 半 。 


3.3.2 多 功能 非 线 性 流水 线 的 调度 


对 于 多 功能 流水 线 来 说 ,由 于 不 同 功能 的 任务 可 以 相互 穿插 在 一 起 流入 流水 线 , 其 调度 
复杂 得 多 。 下 面 仅 以 双 功 能 ( 设 为 功能 A 和 B) 非 线性 流水 线 为 例 ,说 明 多 功能 非 线 性 流水 
线 的 最 优 调度 方法 。 

双 功 能 非 线性 流水 线 的 最 优 调度 方法 类 似 单 功 能 非 线性 流水 线 的 调度 方法 。 只 是 其 状 
态 转移 图 中 节点 状态 的 表示 不 同 , 是 由 两 个 冲突 向 量 构成 的 冲突 矩阵 ,这 两 个 冲突 向 量 分 别 
对 应 于 下 一 个 任务 的 功能 是 A 类 和 B 类 的 情况 。 而 且 , 其 初始 节点 有 两 个 ,分 别 对 应 于 第 
一 个 任务 是 A 类 和 B 类 的 情况 。 假 设 当 第 一 个 任务 是 A 类 时 ,其 冲突 矩阵 为 MX  ; 当 第 一 
个 任务 是 B 类 时 ,其 冲突 矩阵 为 Mg , 则 有 


o 一 | 全 M = [| 
CAB Cep 
其 中 ,Cw (p,q€ {A,B)) 表 示 的 是 :在 一 个 p 类 任务 流入 流水 线 后 .对 后 续 9 类 任务 的 冲突 
向 量 。 它 们 可 以 由 预约 表 求 得 。 显 然 .Cw 共有 2? 二 4 个 。 对 于 NN 功能 流水 线 , 这 种 冲突 向 
量 有 NN? 个。 
后 续 状 态 的 冲突 矩阵 由 下 式 求 得 。 
SHR® (Mi) V MI (3. 23) 
其 中 ,Mi 为 当前 状态 ,~ 表示 下 一 个 流入 任务 的 类 型 (A 或 B) .i 是 当前 状态 允许 流入 的 7 
型 任务 的 时 间 间 隔 。SHR” (M ) 表 示 把 当前 状态 中 的 各 冲突 向 量 人 逻辑 右 移 i 位 。 例 如 
SHR (Mi)V MA 表示 的 是 :把 当前 状态 Ms 中 的 各 冲突 向 量 逻 辑 右 移 3 位 ,再 与 初始 矩 
阵 MX 进行 “或 ?运算 。 
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下 面 举 一 例 来 进一步 说 明 双 功能 非 线性 流水 线 的 最 优 调度 。 
例 3.3 有 一 条 三 段 双 功 能 非 线 性 流水 线 ,实现 的 功能 是 A 和 B, 其 预约 表 分 别 如 


表 3.2 和 表 3. 3 所 示 。 各 段 的 通过 时 间 都 是 一 个 时 钟 周 期 。 请 找 出 该 流水 线 单独 处 理 A 
类 任务 和 单独 处 理 B 类 任务 以 及 混合 处 理 两 类 任务 的 最 优 调度 方案 。 


表 3.2 A 类 对 象 预约 表 
时 间 


眉 1 2 3 4 5 
Si V V 
S, Vv 
V 
表 3.3 B 类 对 象 预约 表 
本 时 间 1 2 3 
Si Vv 


解 (1) 把 两 个 预约 表 重 全 起 来 ,得 到 如 表 3. 4 所 示 的 预约 表 。 
表 3.4 A 和 B 两 类 对 象 预约 表 


时 间 


Vv 


2 


V/ 


3 


B 


A 


B 


AB 


(2) 由 预约 表 求 初始 冲突 向 量 和 初始 冲突 矩阵 。 
由 于 有 两 种 任务 ,所 以 有 两 个 初始 矩阵 。 


me- [ce mr = [| 
Cas Cpe 


其 中 Ca 表示 一 个 A 类 任务 流入 流水 线 后 ,对 下 一 个 A 类 任务 进入 流水 线 的 时 间 间 隔 的 限 


制 。 


制 。 


制 。 


根据 表 3. 2 可 知 ,禁用 时 间 间 隔 是 2 和 3, 故 禁止 表 为 {2,3) ,所 以 CAA 一 (0110) 。 
Css 表 示 一 个 B 类 任务 流入 流水 线 后 ,对 下 一 个 B 类 任务 进入 流水 线 的 时 间 间 隔 的 限 
根据 表 3. 3 可 知 ,禁用 时 间 间 隔 是 2 和 3. 所 以 Caas 一 (0110) 。 

Ca 表示 一 个 A 类 任务 流入 流水 线 后 .对 下 一 个 B 类 任务 进入 流水 线 的 时 间 间 隔 的 限 
根据 表 3.4 可 知 : 

@ 为 了 避免 在 Si 发 生 冲 突 , 禁 用 时 间 间 隔 是 4 一 2 一 2; 

@ 在 S; ,不 会 发 生 冲 突 , 这 是 因为 根据 表 3.4,A 类 任务 先 于 B 类 任务 通过 S, ,而 现在 


的 实际 情况 又 是 A 类 任务 先 于 B 类 任务 流入 流水 线 ; 
Q 为 了 避免 在 S 发 生 冲突 , 茜 用 时 间 间 陋 是 3 一 1 一 2,5 一 1 一 4,5 一 3 一 2。 综 合 起 来 ， | 扣 


有 CAs 一 (1010) 。 

CeA 表 示 一 个 也 类 任务 流入 流水 线 后 ,对 下 一 个 A 类 任务 进入 流水 线 的 时 间 间 隔 的 限 
制 。 根 据 表 3.4 可 知 : 

@ 为 了 避免 在 Si 发 生 冲 突 , 禁 用 时 间 间 隔 有 2 一 1 一 1,5 一 1 一 4,5 一 4 一 1; 

@ 为 了 避免 在 S; 发 生 冲 突 , 禁 用 时 间 间 隔 是 4 一 2 一 2; 

@ 在 S; ,不 会 发 生 冲 突 , 这 是 因为 根据 表 3.4,B 类 任务 先 于 A 类 任务 通过 S; ,或 者 同 
时 通过 S;: (第 三 个 时 钟 周期 ) ,而 现在 的 实际 情况 又 是 B 类 任务 先 于 A 类 任务 流入 流水 线 。 
综合 起 来 ,有 CAs 一 (1011) 。 

因此 ,初始 矩阵 为 


Mi = 加 | :oo|， Mio = ja 加 ono| 
CAB 1010 Cep 0110 

(3) 由 初始 冲突 矩阵 画 出 状态 图 。 

如 果 第 一 个 流入 的 任务 是 A 类 ,初始 状态 就 是 Ma ;如 果 第 一 个 流入 的 任务 是 B 类 , 则 
初始 状态 是 M8? 。 

所 有 后 续 状 态 的 冲突 矩阵 可 用 式 (3. 23) 求 得 。 例 如 ,在 流入 一 个 A 类 任务 后 ,从 CAA 一 
(0110) 可 知 , 可 以 隔 一 个 或 4 个 时 钟 周期 再 流入 一 个 A 类 任务 。 假 设 是 前 者 , 则 把 初始 状 
态 Mx 中 的 各 冲突 向 量 同 时 右 移 一 位 ( 即 进行 SHR” 操作 ) ,再 与 Mx 进行 或 运算 ,可 以 得 


111 
到 新 的 冲突 邱 阵 | 1 | 根据 该 矩阵 的 第 一 个 冲突 向 量 (0111) 可 知 , 只 有 隔 4 个 时 钟 周期 


0111 


流入 一 个 A 类 任务 ,才能 不 发 生 冲 突 。 把 圳 突 逢 阵 | 1 


| 站 的 各 地 突 向 量 同 里 移 4 位 


( 即 进 行 SHR@w 操作 ) ,再 与 M2 进行 按 位 或 运算 ,可 以 得 到 新 的 冲突 年 阵 | "| 


1010 
再 如 ,在 流入 一 个 A 类 任务 后 ,从 CAs=(1010) 可 知 ,可 以 隔 一 个 或 三 个 时 钟 周期 再 流 
入 一 个 B 类 任务 。 假 设 是 前 者 , 则 把 初始 状态 M2? 中 的 各 冲突 向 量 同 时 右 移 一 位 ( 即 进 行 
1011 
a 据 此 可 知 ,允许 的 流 
和 为 :或 者 是 隔 3 个 时 钟 周期 流入 一 个 A 类 任务 ,或 者 是 隔 4 个 时 钟 周期 流入 一 个 B 类 任 
务 。 按 与 上 述 类 似 的 方法 ,又 可 以 得 到 新 的 冲突 矩阵 。 

求 出 所 有 可 能 的 状态 后 .就 可 以 画 出 状态 图 ,如 图 3. 16 所 示 。 图 中 弧 线 上 的 标记 .i 
表示 隔 i 个 时 钟 周期 流入 r 类 的 任务 。 

(4) 由 状态 图 得 出 最 优 调度 方案 。 

从 状态 图 可 以 找 出 各 种 情况 下 的 最 优 调度 方案 。 只 流入 A 类 任务 的 最 优 调度 方案 是 
(A.1,A.4), 只 流入 B 类 任务 的 最 优 调度 方案 是 (B. 1,B. 4) ,混合 流入 A.、B 两 类 任务 的 最 
优 调度 方案 是 (B. 1,A.3,A.4)。 


SHR 操作 ) ,再 与 Mg 进行 或 运算 ,可 以 得 到 新 的 冲突 矩阵 | 
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图 3.16 双 功 能 非 线 性 流水 线 的 状态 图 


3.4 流水 线 的 相关 与 冲突 


3.4.1 一 条 经 典 的 5 段 流 水 线 


在 论述 流水 线 的 相关 与 冲突 之 前 , 先 来 介绍 一 条 经 典 的 5 段 RISC 流水 线 。 

先 考虑 在 非 流 水 情况 下 是 如 何 实现 的 。 把 一 条 指令 的 执行 过 程 分 为 以 下 5 个 时 钟 
周期 。 

1. 取 指 令 周 期 (IF) 

以 程序 计数 器 (PC) 中 的 内 容 作 为 地 址 ,从 存储 器 中 取出 指令 并 放 入 指令 寄存 器 (IR); 
同时 PC 值 加 4( 假 设 每 条 指令 占 4 个 字 节 ) ,指向 顺序 的 下 一 条 指令 。 

2. 指令 译 码 / 读 寄存 器 周期 (1D) 

对 指令 进行 译 码 , 并 用 IR 中 的 寄存 器 地 址 去 访问 通用 寄存 器 组 , 读 出 所 需 的 操作 数 。 

3. 执行 /有 效 地 址 计算 周期 (EX) 

在 这 个 周期 ,ALU 对 在 上 一 个 周期 准备 好 的 操作 数 进行 运算 或 处 理 。 不 同 指令 所 进行 
的 操作 不 同 。 

(1) load 和 store 指令 : ALU 把 指令 中 所 指定 的 寄存 器 的 内 容 与 偏 移 量 相 加 ,形成 访 
存 有 效 地 址 。 

(2) 寄存 器 -寄存 器 ALU 指令 : ALU 按照 操作 码 指 定 的 操作 对 从 通用 寄存 器 组 中 读 
出 的 数据 进行 运算 。 

(3) 寄存 器 -立即 数 ALU 指令 : ALU 按照 操作 码 指定 的 操作 对 从 通用 寄存 器 组 中 读 
出 的 操作 数 和 指令 中 给 出 的 立即 数 进行 运算 。 

(4) 分 支 指令 : ALU 把 指令 中 给 出 的 偏 移 量 与 PC 值 相 加 ,形成 转移 目标 的 地 址 。 同 
时 ,对 在 前 一 个 周期 读 出 的 操作 数 进行 判断 .确定 分 支 是 否 成 功 。 

4. 存储 器 访问 /分 支 完成 周期 (MEM) 

1) load 指令 和 store 指令 

如 果 是 load 指令 ,就 用 上 一 个 周期 计算 出 的 有 效 地 址 从 存储 器 中 读 出 相应 的 数据 ;如 
果 是 store 指令 ,就 把 指定 的 数据 写 入 这 个 有 效 地 址 所 指出 的 存储 器 单元 。 


2) 分 支 指令 

如 果 分 支 “ 成 功 ”, 就 把 在 前 一 个 周期 中 计算 好 的 转移 目标 地 址 送 入 PC。 分 支 指令 执行 
完成 ;否则 ,就 不 进行 任何 操作 。 

其 他 类 型 的 指令 在 此 周期 不 做 任何 操作 。 

5. 写 回 周期 (WB) 

把 结果 写 入 通用 寄存 器 组 。 对 于 ALU 运算 指令 来 说 ,这 个 结果 来 自 ALU, 而 对 于 
load 指令 来 说 ,这 个 结果 来 自 存 储 器 。 

在 上 述 5 个 周期 的 实现 方案 中 ,分 支 指令 和 store 指令 需要 4 个 周期 ,其 他 指令 需要 5 
个 周期 才能 完成 。 在 追求 更 高 性 能 的 方案 中 ,可 以 把 分 支 指令 的 执行 提前 到 ID 周期 完成 ， 
这 样 分 支 指令 只 需要 两 个 周期 。 不 过 ,为 了 实现 这 一 点 ,需要 增设 一 个 专门 用 于 计算 转移 目 
标 地 址 的 加 法 器 。 

把 上 述 实现 方案 改造 为 流水 线 实 现 是 比较 简单 的 ,只 要 把 上 面 的 每 一 个 周期 作为 一 个 
流水 段 ,并 在 各 段 之 间 加 上 锁 存 器 ,就 构成 了 如 图 3. 17 所 示 的 5 段 流 水 线 。 这 些 锁 存 器 称 
为 流水 寄存 器 。 如 果 在 每 个 时 钟 周 期 启动 一 条 指令 , 则 采用 流水 方式 后 的 性 能 将 是 非 流 水 
方式 的 5 倍 。 当 然 , 事 情 也 没 这 么 简单 ,还 要 解决 好 流水 处 理 带 来 的 一 些 问题 。 


IF 段 | ID 段 | EX 段 | MEM 段 | WB 段 


Ye > i 
IM i Reg 名 DM Reg |) 


Se od 全 天 
流水 线 寄存 器 一 
图 3.17 一 条 经 典 的 5 段 流水 线 


首先 ,在 流水 线 方式 下 ,要 保证 不 会 在 同一 时 钟 周期 要 求 同 一 个 功能 段 做 两 件 不 同 的 工 
作 。 例 如 ,不 能 要 求 ALU 既 做 有 效 地 址 计算 ,又 同时 做 算术 运算 。RISC 指令 集 比较 简洁 ， 
所 以 该 要 求 不 难 实 现 。 

其 次 ,为 了 避免 IF 段 的 访 存 ( 取 指令 ) 与 MEM 段 的 访 存 ( 读 / 写 数据 ) 发 生 冲 突 , 必 须 采 
用 分 离 的 指令 存储 器 和 数据 存储 器 ,或 者 是 仍 采用 一 个 公用 的 存储 器 ,但 要 采用 分 离 的 指令 
Cache 和 数据 Cache。 一 般 是 采用 后 者 。 

第 三 ,ID 段 要 对 通用 寄存 器 组 进行 读 操 作 , 而 WB 段 要 对 通用 寄存 器 组 进行 写 操作 ,为 
了 解决 对 同一 通用 寄存 器 的 访问 冲突 .我们 把 写 操作 安排 在 时 钟 周期 的 前 半 拍 完成 ,把 读 操 
作 安 排 在 后 半 拍 完成 。 在 图 3. 17 以 及 后 面 的 图 中 ,用 部 件 Reg 的 边框 为 实 线 来 表示 进行 
读 或 写 操作 ,而 虚线 则 表示 不 进行 操作 。 

第 四 ,图 3. 17 中 没有 考虑 PC 的 问题 。 为 了 做 到 每 一 个 时 钟 周期 启动 一 条 指令 ,必须 
在 每 个 时 钟 周期 都 进行 PC 值 加 4 的 操作 。 这 要 在 IF 段 完 成 ,为 此 需要 设置 一 个 专门 的 加 
法 器 。 另 外 ,分 支 指令 也 要 修改 PC 的 值 , 它 是 到 MEM 段 才 会 进行 修改 的 。3. 4. 2 节 将 详 
细 讨 论 分 支 的 处 理 问题 。 

需要 说 明 的 是 ,这 里 给 出 的 方案 并 不 是 性 能 最 好 或 者 成 本 最 低 的 , 它 只 是 用 来 帮助 我 们 
更 好 地 理解 指令 流水 线 的 原理 和 实现 。 


CD 
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3.1.1 节 中 介绍 了 流水 线 的 时 空 图 。 为 便于 后 面 的 讨论 ,下 面 介绍 另外 一 种 时 空 图 ,如 
图 3. 18 所 示 。 它 是 如 图 3.17 所 示 的 流水 线 的 时 空 图 。 其 横向 与 图 3. 2 中 的 横 坐 标 类 似 ， 
表示 的 是 时 间 。 这 里 用 的 是 时 钟 周期 。 但 纵向 和 时 空 区 中 的 内 容 与 图 3. 2 的 不 同 。 图 3.2 
的 纵 坐标 (向 上 ) 是 各 流水 段 , 时 空 区 中 填 的 是 所 处 理 的 任务 ,而 图 3. 18 中 的 纵向 (向 下 ) 却 
是 所 执行 的 指令 (相当 于 图 3.2 中 的 任务 ) 按 顺序 列 出 ,时 空 分 区 中 填 的 是 各 流水 段 的 名 称 。 
这 种 时 空 图 更 直观 地 展现 了 指令 的 重 释 执行 情况 。 图 3. 19 是 这 种 时 空 图 的 又 一 种 画 法 , 它 
以 数据 通路 的 快照 形式 更 直观 地 展现 了 部 件 重 又 工作 的 情况 。 在 后 面 的 论述 中 ,将 经 常 采 
用 这 两 种 时 空 图 。 


时 钟 周 
名 周期 1 2 3 4 5 6 7 8 
指令 
| 指令 IF | ID | EX | MEM WB 
| 指令 +1 | IF | ID | EX MEM | WB 
| 指令 k+2 | | IF | ID EX MEM WB 
| 指令 k+3 | | IF ID EX | MEM | WB 
图 3.18 5 段 流水 线 的 另 一 种 时 空 图 
时 间 ( 时 钟 周期 ) » 
1 2 3 4 5 6 
指 S4 IM i Em Ee | Reg | 
指令 t+1 IM 可 记 | DM | Reg } 
指令 42 IM IG Reg 癌 E DM 
指令 K+3 I™M | Reg 荐 记 -一 


图 3. 19 时 空 图 的 另 一 种 画 法 


3.4.2 相关 与 流水 线 冲 突 


1. 相关 

相关 (dependence) 是 指 两 条 指令 之 间 存 在 某 种 依赖 关系 。 如 果 指 令 之 间 没 有 任何 关 
系 ,那么 当 流 水 线 有 足够 的 硬件 资源 时 .它们 就 能 在 流水 线 中 顺利 地 重 又 执行 ,不 会 引起 任 
何 停顿 。 但 如 果 两 条 指令 相关 ,它们 也 许 就 不 能 在 流水 线 中 重 笃 执行 或 者 只 能 部 分 重 笃 。 
研究 程序 中 指令 之 间 存 在 什么 样 的 相关 ,对 于 充分 发 挥 流水 线 的 效率 有 重要 的 意义 。 


相关 有 三 种 类 型 : 数据 相关 (也 称 真 数 据 相 关 )、 名 相关 、 控 制 相 关 。 

1) 数据 相关 (Data Dependence) 

考虑 两 条 指令 i 和 j,i 在 j 的 前 面 ( 下 同 ) ,如 果 下 述 条 件 之 一 成 立 , 则 称 指令 j 与 指令 i 
数据 相关 : 

(1) 指令 j 使 用 指令 i 产生 的 结果 ; 

(2) 指令 j 与 指令 & 数据 相关 ,而 指令 又 与 指令 i 数据 相关 。 

其 中 第 (2) 个 条 件 表明 ,数据 相关 具有 传递 性 。 两 条 指令 之 间 如 果 存 在 第 一 个 条 件 所 指 
出 的 相关 的 链 , 则 它们 是 数据 相关 的 。 数 据 相 关 反 映 了 数据 的 流动 关系 , 即 如 何 从 其 产生 者 


流动 到 其 消费 者 。 
例如 ,下 面 这 一 段 代 码 存在 数据 相关 。 
Ioop: L.D FD,0(R2) //E0 为 数组 元 素 
RDD.D 0 // 加 上 到 中 的 值 
S.D F4,0(R2) // 保 存 结 果 
IADDIY  R2,F2,-8 /数组 指针 递减 8 个 字 节 
ENE ER2,RLIoop // 如 果 FR2 关 EL 则 分 支 


其 中 箭头 表示 必须 保证 的 执行 顺序 。 它 由 产生 数据 的 指令 指向 使 用 该 数据 的 指令 。 

当 数 据 的 流动 是 经 过 寄存 器 时 ,相关 的 检测 比较 直观 和 容易 ,因为 寄存 器 是 统一 命名 
的 ,同一 寄存 器 在 所 有 指令 中 的 名 称 都 是 唯一 的 。 而 当 数 据 的 流动 是 经 过 存储 器 时 ,检测 就 
比较 复杂 了 ,因为 形式 上 相同 的 地 址 其 有 效 地 址 未 必 相 同 , 如 某 条 指令 中 的 10(R5 ) 与 另 一 
条 指令 中 的 10(R5) 可 能 是 不 同 的 (R5 的 内 容 可 能 发 生 了 变化 ) ;而 形式 不 同 的 地 址 其 有 效 
地 址 却 可 能 相同 。 

2) 名 相关 (Name Dependence) 

这 里 的 名 是 指 指令 所 访问 的 寄存 器 或 存储 器 单元 的 名 称 。 如 果 两 条 指令 使 用 了 相同 的 
名 ,但 是 它们 之 间 并 没有 数据 流动 , 则 称 这 两 条 指令 存在 名 相关 。 指 令 j 与 指令 i 之 间 的 名 
相关 有 以 下 两 种 ， 

(1) 反 相 关 (Anti-Dependence) 。 如 果 指 令 7 所 写 的 名 与 指令 i 所 读 的 名 相同 , 则 称 指 
令 i 和 j 发 生 了 反 相关 。 反 相关 指令 之 间 的 执行 顺序 是 必须 严格 遵守 的 ,以 保证 i 读 的 值 是 
正确 的 。 

(2) 输出 相关 (Output Dependence)。 如 果 指 令 j 和 指令 i 所 写 的 名 相同 . 则 称 指令 i 
和 j 发 生 了 输出 相关 。 输 出 相关 指令 的 执行 顺序 是 不 能 颠倒 的 ,以 保证 最 后 的 结果 是 指令 
j 写 进去 的 。 

与 真 数据 相关 不 同 , 名 相关 的 两 条 指令 之 间 并 没有 数据 的 传送 ,只 是 使 用 了 相同 的 名 而 
已 。 如 果 把 其 中 一 条 指令 所 使 用 的 名 换 成 别 的 ,并 不 影响 另外 一 条 指令 的 正确 执行 。 因 此 
可 以 通过 改变 指令 中 操作 数 的 名 来 消除 名 相关 ,这 就 是 换 名 (renaming) 技 术 。 对 于 寄存 器 
操作 数 进 行 换 名 称 为 寄存 器 换 名 (Register Renaming)。 寄 存 器 换 名 既 可 以 用 编译 器 静态 
实现 ,也 可 以 用 硬件 动态 完成 。 

例如 ,考虑 下 述 代 码 。 
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DIV.D 要 , 权 到 
RDD.D FB,F0,F12 
SUB.D Fl0,F8,F14 


DIV.D 和 ADD.D 存在 反 相 关 。 进 行 寄存 器 换 名 , 即 把 后 面 的 两 个 F8 换 成 S 后 , 变 成 


DIV.D F2,F8,F4 
RDD.D ~ S$,F0,F12 
SUB.D F10,S,F14 


这 就 消除 了 原 代码 中 的 反 相关 。 

3) 控制 相关 (Control Dependence) 

控制 相关 是 指 由 分 支 指令 引起 的 相关 。 它 需要 根据 分 支 指令 的 执行 结果 来 确定 后 面 该 
执行 哪个 分 支 上 的 指令 。 一 般 来 说 ,为 了 保证 程序 应 有 的 执行 顺序 ,必须 严格 按照 控制 相关 
确定 的 顺序 执行 。 

控制 相关 的 一 个 最 简单 的 例子 是 和 语句 中 的 then 部 分 ,例如 : 

证 pl1{ 

Sl; 


这 里 的 if pl 和 if p2 编译 成 目标 代码 以 后 都 是 分 支 指令 。 语 句 Sl 与 pl 控制 相关 ,S2 与 p2 
控制 相关 。S 与 pl 和 p2 均 无 关 。 

控制 相关 带 来 了 以 下 两 个 限制 。 

(1) 与 一 条 分 支 指令 控制 相关 的 指令 不 能 被 移 到 该 分 支 之 前 ;否则 这 些 指令 就 不 受 该 
分 支 控 制 了 。 对 于 上 述 的 例子 ,then 部 分 中 的 指令 不 能 移 到 if 语句 之 前 。 

(2) 如 果 一 条 指令 与 某 分 支 指 令 不 存在 控制 相关 ,就 不 能 把 该 指令 移 到 该 分 支 之 后 。 
对 于 上 述 的 例子 ,不 能 把 S 移 到 if 语 句 的 then 部 分 中 。 

2. 流水 线 冲突 

流水 线 冲突 (Pipeline Hazard) 是 指 对 于 具体 的 流水 线 来 说 ,由 于 相关 的 存在 ,使 得 指令 
流 中 的 下 一 条 指令 不 能 在 指定 的 时 钟 周期 开始 执行 。 

流水 线 冲 突 有 以 下 三 种 类 型 : 

(1) 结构 冲突 (Structural Hazard) : 因 硬 件 资源 满足 不 了 指令 重 倒 执行 的 要 求 而 发 生 
的 冲突 。 

(2) 数据 冲突 (Data Hazard): 当 指 令 在 流水 线 中 重 又 执行 时 , 因 需 要 用 到 前 面 指令 的 
执行 结果 而 发 生 的 冲突 。 

(3) 控制 冲突 (Control Hazard) : 流水 线 遇 到 分 支 指令 或 其 他 会 改变 PC 值 的 指令 所 引 
起 的 冲突 。 

在 设计 流水 线 时 ,需要 很 好 地 解决 冲突 问题 ;否则 ,就 可 能 影响 流水 线 的 性 能 甚至 导致 
错误 的 执行 结果 。 当 发 生 冲突 时 ,往往 需要 使 某 些 指令 推 后 执行 ,从 而 使 流水 线 出 现 停顿 。 
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这 会 降低 流水 线 的 效率 和 实际 的 加 速 比 。 
在 后 面 的 讨论 中 ,我 们 约定 : 当 一 条 指令 被 暂停 时 ,在 该 暂停 指令 之 后 流出 的 所 有 指令 
都 要 被 暂停 ,而 在 该 暂停 指令 之 前 流出 的 指令 则 继续 进行 。 显然, 在 整个 暂停 期 间 , 流 水 线 
不 会 启动 新 的 指令 。 
1) 结构 冲突 
在 流水 线 处 理 机 中 ,如 果 某 种 指令 组 合 因为 资源 冲突 而 不 能 正常 执行 , 则 称 该 处 理 机 有 
结构 冲突 。 为 了 能 够 使 各 种 组 合 的 指令 都 能 顺利 地 重 释 执行 ,就 需要 对 功能 部 件 进行 全 流 
水 处 理 或 重复 设置 足够 多 的 资源 。 
下 面 以 访 存 冲突 为 例 来 说 明 结构 冲突 及 其 解决 办 法 。 有 些 流 水 线 处 理 机 只 有 一 个 存储 
器 ,数据 和 指令 都 存放 在 这 个 存储 器 中 。 在 这 种 情况 下 , 当 执行 load 指令 需要 存 取 数 时 , 若 
又 要 同时 完成 其 后 某 条 指令 的 “ 取 指令 ”, 那 么 就 会 发 生 访 存 冲突 ,如 图 3. 20 中 带 阴影 的 M 
所 示 。 为 了 消除 这 个 结构 冲突 ,可 以 在 前 一 条 指令 访问 存储 器 时 ,将 流水 线 停顿 一 个 时 钟 周 
期 ,推迟 后 面 取 指令 的 操作 ,如 图 3. 21 所 示 。 该 停顿 周期 往往 被 称 为 流水线 气泡 ,简称 
“气泡 ”。 
时 间 ( 时 钟 周期 ) 一 
1 2 


3 
load | M | i 内 | 
1 一 
指令 it1 M iE 
和 | FH -站 EE I 


有, | 国 > | 

指 人 rt3 | i 用 rn 
Ee 

指令 i+4 | M 1 Reg [| ,到 | M 
Es 但 


图 3. 20 ”由 于 访问 同一 个 存储 器 而 引起 的 结构 冲突 


也 可 以 用 如 图 3. 22 所 示 的 时 空 图 来 表示 上 述 停顿 情况 。 在 图 3. 22 中 ,将 停顿 周期 标 
记 为 stall ,并 将 指令 ;十 3 的 所 有 操作 右 移 一 个 时 钟 周期 。 在 这 种 情况 下 ,在 第 4 个 时 钟 周 
期 没有 启动 新 指令 。 指 令 i 十 3 要 推迟 到 第 9 个 时 钟 周期 才 完成 。 在 第 8 个 时 钟 周期 ,流水 
线 中 没有 指令 完成 。 

可 以 看 出 ,为 消除 结构 冲突 而 引入 的 停顿 将 影响 流水 线 的 性 能 。 由 于 这 种 冲突 出 现 的 
频 度 不 低 , 因 此 一 般 是 采用 分 别 设置 独立 的 指令 存储 器 和 数据 存储 器 方法 ,或 者 仍 只 设置 一 
个 存储 器 ,但 采用 两 个 分 离 的 Cache: 指令 Cache, 数 据 Cache。 

既然 结构 冲突 会 导致 处 理 机 的 性 能 下 降 , 那 为 什么 有 些 计算 机 却 允 许 结构 冲突 的 存在 
呢 ? 其 主要 原因 是 为 了 减少 硬件 成 本 。 如 果 把 流水 线 中 的 所 有 功能 单元 完全 流水 化 ,或 者 
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时 间 ( 时 钟 周期 ) 二 
1 2 3 4 5 6 7 8 
-- | -3 
load | M 口 Reg 主 站 | M Reg ; 
一 已 | 
-- -3 
指令 Ht1 M 口 Reg 加 | M | Reg i 
下 加 | 
Fr > | 
指令 i+2 M 1 Reg 已 M 站 Reg | 
人 加 Ee 


ms 


Es 
指令 H+3 MM | c | a 


图 3.21 为 消除 结构 冲突 而 插入 的 流水 线 气泡 


时 钟 周 期 
的 1 2 3 4 5 6 7 8 9 10 
指令 i IF ID EX | MEM | WB 
指令 寺 1 IF ID EX | MEM | WB 
指令 i+2 IF ID EX | MEM | WB 
指令 i+3 stall IF EX EX | MEM | WB 
指令 it4 IF ID EX | MEM | WB 


图 3.22 图 3.21 的 另 一 种 画 法 


重复 设置 足够 份 数 ,那么 所 花费 的 成 本 将 相当 高 。 假 如 结构 冲突 并 不 是 经 常 发 生 ,那么 为 之 
大 量 增加 硬件 就 可 能 不 值得 了 。 

2) 数据 冲突 

(1) 数据 冲突 简介 

当 相 关 的 指令 彼此 靠 得 足 够 近 时 ,它们 在 流水 线 中 的 重 本 执行 或 者 重新 排序 会 改变 指 
令 读 / 写 操作 数 的 顺序 ,使 之 不 同 于 它们 串 行 执行 时 的 顺序 。 这 就 是 发 生 了 数据 冲突 。 考 虑 
以 下 指令 在 流水 线 中 的 执行 情况 。 

DADD Rl, R2， RB3 

DSUB R4, RL， R5 

XR  R6， RIl, RI 

AD R8, Rl, R9 


DADD 指令 后 的 所 有 指令 都 要 用 到 DADD 指令 的 计算 结果 ,如 图 3. 23 所 示 。DADD 


指令 在 其 WB 段 (第 5 个 时 钟 周期 ) 才 将 计算 结果 写 和 人 寄存 器 R1, 但 是 DSUB 指令 在 其 ID 
段 (第 3 个 时 钟 周期 ) 就 要 从 寄存 器 Rl 读 取 该 结果 ,这 就 是 一 个 数据 冲突 。 若 不 采取 措施 
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防止 这 一 情况 发 生 , 则 DSUB 指令 读 到 的 值 就 是 错误 的 。XOR 指令 也 受到 这 种 冲突 的 影 
响 , 它 在 第 4 个 时 钟 周期 从 Rl 读 出 的 值 也 是 错误 的 。 而 AND 指令 则 可 以 正常 执行 ,这 是 
因为 它 是 在 第 5 个 时 钟 周期 的 后 半 拍 才 从 寄存 器 读数 据 的 ,而 DADD 指令 在 第 5 个 时 钟 周 
期 的 前 半 拍 已 将 结果 写 人 寄存 器 。 
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图 3.23 流水 线 的 数据 冲突 举例 


按照 指令 读 访问 和 写 访问 的 先后 顺序 ,可 以 将 数据 冲突 分 为 三 种 类 型 。 习 惯 上 ,这 些 冲 
突 是 按照 流水 线 必须 保持 的 访问 顺序 来 命名 的 。 考 虑 两 条 指令 i 和 j, 且 i 在 j 之 前 进入 流 
水 线 , 可 能 发 生 的 数据 冲突 有 以 下 几 种 。 

QO@ 写 后 读 冲 突 (Read After Write, RAW): 指令 j 用 到 指令 i 的 计算 结果 ,而 且 在 i 将 
结果 写 人 寄存 器 之 前 就 去 读 该 寄存 器 ,因而 得 到 的 是 旧 值 。 这 是 最 常见 的 一 种 数据 冲突 , 它 
对 应 于 真 数 据 相 关 。 图 3. 23 中 的 数据 冲突 都 是 写 后 读 冲 突 。 

@ 写 后 写 冲突 (Write After Write, WAW);: 指令 j 和 指令 i 的 结果 寄存 器 相同 ,而 且 j 
在 i 写 入 之 前 就 先 对 该 寄存 器 进行 了 写 人 操作 ,从 而 导致 写 人 顺序 错误 。 最 后 在 结果 寄存 
器 中 留 下 的 是 i 写 和 人 的 值 ,而 不 是 j 写 入 的 值 。 这 种 冲突 对 应 于 输出 相关 。 

写 后 写 冲 突 仅 发 生 在 这 样 的 流水 线 中 : @ 流 水 线 中 不 止 一 个 段 可 以 进行 写 操作 ;或 者 
加 指令 被 重新 排序 了 。 前 面 介 绍 的 5 段 流水 线 由 于 只 在 WB 段 写 寄存 器 ,所 以 不 会 发 生 写 
后 写 冲突 。 在 第 5 章 中 介绍 的 流水 线 允 许 指令 重新 排序 ,就 可 能 发 生 这 种 冲突 。 

@ 读 后 写 冲突 (Write After Read, WAR): 指令 j 的 目的 寄存 器 和 指令 i 的 源 操作 数 
寄存 器 相同 ,而 且 j 在 i 读 取 该 寄存 器 之 前 就 先 对 它 进行 了 写 操 作 , 导 致 i 读 到 的 值 是 错误 
的 。 这 种 冲突 是 由 反 相 关 引 起 的 。 

读 后 写 冲突 在 前 述 5 段 流 水 线 中 不 会 发 生 , 因 为 这 种 流水 线 中 的 所 有 读 操作 (在 ID 段 ) 
都 在 写 结果 操作 (在 WB 段 ) 之 前 发 生 。 读 后 写 冲 突 仅 发 生 在 这 样 的 情况 下 : @ 有 些 指令 的 
写 结果 操作 提前 了 ,而 有 些 指 令 的 读 操作 滞后 了 ;或 者 @ 指 令 被 重新 排序 了 。 

(2) 使 用 定向 技术 减少 数据 冲突 引起 的 停顿 。 

当 出 现 如 图 3. 23 所 示 的 写 后 读 冲 突 时 ,为 了 保证 指令 序列 的 正确 执行 ,一 种 简单 的 处 
理 方法 是 暂停 流水 线 中 DADD 之 后 的 所 有 指令 ,直到 DADD 指令 将 计算 结果 写 入 寄存 器 
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Rl 之 后 ,再 让 DADD 之 后 的 指令 继续 执行 。 但 这 种 暂停 会 导致 性 能 下 降 。 

为 了 减少 停顿 时 间 , 可 以 采用 定向 技术 (forwarding, 也 称 为 旁 路 ) 来 解决 写 后 读 冲 突 。 
定向 技术 的 关键 思想 是 : 在 发 生 写 后 读 相关 的 情况 下 ,在 计算 结果 尚未 出 来 之 前 ,后 面 等 待 
使 用 该 结果 的 指令 并 不 见得 马上 就 要 用 该 结果 。 如 果 能 够 将 该 计算 结果 从 其 产生 的 地 方 
(ALU 的 出 口 ) 直 接送 到 其 他 指令 需要 它 的 地 方 (ALU 的 入 口 ) ,那么 就 可 以 避免 停顿 。 对 
于 图 3. 23 的 情况 ,可 以 把 DADD 指令 产生 的 结果 直接 送 给 DSUB 和 XOR 指令 ,这样 就 能 
避免 停顿 ,如 图 3. 24 所 示 。 图 中 从 流水 寄存 器 到 功能 部 件 入 口 的 连 线 表 示 定 向 路 径 ,箭头 
表示 数据 的 流向 。 显 然 ,这 些 指 令 都 能 顺利 执行 而 不 会 导致 停顿 。 

从 图 3.23 还 可 以 看 出 ,流水 线 中 的 指令 所 需要 的 定向 结果 可 能 不 仅仅 是 前 一 条 指令 的 
计算 结果 ,而 且 还 有 可 能 是 前 面 与 其 不 相 邻 的 指令 的 计算 结果 。 
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图 3.24 采用 定向 技术 后 的 流水 线 数据 通路 
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我 们 可 以 这 样 来 实现 定向 : 

Q@ EX 段 和 MEM 段 之 间 的 流水 寄存 器 中 保存 的 ALU 运算 结果 总 是 回 送 到 ALU 的 
拓 百 。 

@ 当 定向 硬件 检测 到 前 一 个 ALU 运算 结果 写 入 的 寄存 器 就 是 当前 ALU 操作 的 源 寄 
存 器 时 ,那么 控制 逻辑 就 选择 定向 的 数据 作为 ALU 的 输入 ,而 不 采用 从 通用 寄存 器 组 读 出 
的 数据 。 

上 述 定向 技术 可 以 推广 到 更 一 般 的 情况 : 将 结果 数据 从 其 产生 的 地 方 直接 传送 到 所 有 
需要 它 的 功能 部 件 。 也 就 是 说 ,结果 数据 不 仅 可 以 从 某 一 功能 部 件 的 输出 定向 到 其 自身 的 
输入 ,而 且 还 可 以 定向 到 其 他 功能 部 件 的 输入 。 

(3) 需要 停顿 的 数据 冲突 。 

并 不 是 所 有 的 数据 冲突 都 可 以 用 定向 技术 来 解决 的 。 参 照 图 3. 25,DADD 指令 要 使 用 
LD 指令 的 结果 ,如 图 3. 25 中 的 虚线 所 示 。 显 然 , 这 个 定向 是 无 法 实现 的 。 

为 保证 上 述 指令 序列 能 在 流水 线 中 正确 执行 ,需要 设置 一 个 称 为 “流水 线 互 锁 机 制 ” 
(Pipeline Interlock) 的 功能 部 件 。 一 般 来 说 ,流水 线 互 锁 机 制 的 作用 是 检测 发 现 数据 冲突 ， 
并 使 流水 线 停顿 ,直至 冲突 消失 。 停 顿 是 从 等 待 相关 数据 的 指令 开始 ,到 相应 的 指令 产生 所 
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图 3.25 无 法 将 LD 指令 的 结果 定向 到 DADD 指令 


LDRI1, 0(R2) | IM 
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需 数据 为 止 。 停 顿 导致 在 流水 线 中 插入 气泡 ,使 得 被 停顿 指令 的 CPI 增 加 了 相应 的 时 钟 周 
期 数 。 
(4) 依靠 编译 器 解决 数据 冲突 。 
为 了 减少 停顿 ,对 于 无 法 用 定向 技术 解决 的 数据 冲突 ,可 以 通过 在 编译 时 让 编译 器 重新 
组 织 指 令 顺 序 来 消除 冲突 ,这 种 技术 称 为 “指令 调度 ”(Instruction Scheduling) 或 “流水 线 调 
度 ”(Pipeline Scheduling)。 实 际 上 ,对 于 各 种 冲突 ,都 有 可 能 用 指令 调度 来 解决 。 
下 面 通过 一 个 例子 来 进一步 说 明 , 考 虑 以 下 表达 式 。 
A=B+C 
D=E—F 
表 3. 5 左边 是 这 两 个 表达 式 编译 后 所 形成 的 代码 。 在 这 个 代码 序列 中 ,DADD Ra.Rb， 
Re 与 LD Rec,C 之 间 存在 数据 冲突 ,DSUB Rd,Re,Rf 与 LD Rf,F 之 间 也 是 如 此 。 为 了 保 
证 流水 线 能 正确 执行 调度 前 的 指令 序列 ,必须 在 指令 的 执行 过 程 中 插入 两 个 停顿 周期 (分 别 
在 DADD 和 DSUB 执行 前 )。 而 在 调度 后 的 指令 序列 中 ,加 大 了 DADD 和 DSUB 指令 与 
LD 指令 的 距离 。 通 过 采用 定向 ,可 以 消除 数据 冲突 ,因而 不 必 在 执行 过 程 中 插入 任何 停顿 
周期 。 


表 3.5 调度 前 后 的 指令 序列 


调度 前 的 代码 调度 后 的 代码 
ID Eb,B ID Eb,B 
ID Rec ID Rc,C 
DaDD ”Ra,Fb,Fc ID Re,E 
SD RaA DaDD Ra,Rb,Rc 
ID ReE ID RE,E 
ID REF SD FaA 
DSUB Rd,Re,RE DSUB Rd,Re,RE 
SD RdD SD Ra,D 

3) 控制 冲突 


在 流水 线 中 ,控制 冲突 可 能 会 比 数据 冲突 造成 更 多 的 性 能 损失 ,所 以 同样 需要 得 到 很 好 
的 处 理 。 执 行 分 支 指令 的 结果 有 两 种 ,一 种 是 分 支 “成 功 ”,PC 值 改 变 为 分 支 转移 的 目标 地 
址 ; 另 一 种 则 是 “不 成 功 ” 或 者 “失败 ”, 这 时 PC 值 保 持 正常 递增 ,指向 顺序 的 下 一 条 指令 。 
对 分 支 指令 “成 功 ” 的 情况 来 说 ,是 在 条 件 判定 和 转移 地 址 计算 都 完成 后 , 才 改 变 PC 值 的 。 


Co 
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对 于 3.4.1 节 中 的 5 段 流水 线 来 说 ,改变 PC 值 是 在 MEM 段 进行 的 。 

处 理 分 支 指令 最 简单 的 方法 是 “冻结 (freeze) 或 者 “ 排 空 *(flush) 流 水 线 。 即 一 旦 在 流 
水 线 的 译 码 段 ID 检测 到 分 支 指令 ,就 暂停 其 后 的 所 有 指令 的 执行 ,直到 分 支 指令 到 达 
MEM 段 、 确 定 是 否 成 功 并 计算 出 新 的 PC 值 为 止 。 然 后 ,按照 新 的 PC 值 取 指令 ,如 
图 3. 26 所 示 。 在 这 种 情况 下 ,分 支 指令 给 流水 线 带 来 了 三 个 时 钟 周期 的 延迟 。 这 种 方法 的 
优点 在 于 其 简单 性 。 


分 支 指令 IF|ID | EX |MEM| wB 

分 支 目 标 指令 IF | stall | stall | IF ID | EX | MEM | WB 

分 支 目标 指令 +1 | FE | ID | EX | MEM | WB 
分 支 目标 指令 +2 MEM 


图 3.26 简单 处 理 分 支 指令 : 分 支 成 功 的 情况 


分 支 失败 时 的 时 空 图 与 图 3. 26 类 似 , 只 是 分 支 指令 之 后 执行 的 指令 不 是 分 支 目 标的 指 
令 ,而 是 后 继 地 址 的 指令 。 显 然 ,这 种 让 流水 线 空 等 的 方法 不 是 一 种 好 的 选择 。 后 面 我 们 将 
对 其 进行 改进 。 

在 后 面 的 叙述 中 ,我 们 把 由 分 支 指令 引起 的 延迟 称 为 分 支 延迟 (Branch Delay)。 

分 支 指令 在 目标 代码 中 出 现 的 频 度 是 不 低 的 ,统计 结果 表明 ,每 三 四 条 指令 就 有 一 条 是 
分 支 指令 。 当 分 支 延迟 比较 大 时 ,所 带 来 的 性 能 损失 是 相当 大 的 。 所 以 降低 分 支 延迟 对 于 
充分 发 挥 流水 线 的 效率 是 十 分 重要 的 。 

为 减少 分 支 延 迟 ,可 采取 以 下 措施 : 

(1) 在 流水 线 中 尽早 判断 出 (或 者 猜测 ) 分 支 是 否 成 功 ; 

(2) 尽早 计算 出 分 支 目 标 地 址 。 

这 两 种 措施 要 同时 采用 , 缺 一 不 可 。 因 为 只 有 判断 出 转移 是 否 成 功 而 且 得 到 分 支 目标 
地 址 后 才能 进行 转移 。 

可 以 把 这 两 步 工 作 提 前 到 ID 段 完 成 , 即 分 支 指令 是 在 ID 段 的 末尾 执行 完成 的 ,这 样 就 
可 以 把 分 支 延迟 减少 到 一 个 时 钟 周期 。 

进一步 减少 分 支 延迟 的 方法 有 许多 种 。 下 面 只 介绍 三 种 通过 软件 (编译 器 ) 来 处 理 的 方 
法 ,更 复杂 的 软 硬 件 结合 的 方法 将 在 第 5 章 和 第 6 章 中 讨论 。 这 三 种 方法 有 一 个 共同 的 特 
点 : 它们 对 分 支 的 处 理 方法 在 程序 的 执行 过 程 中 始终 是 不 变 的 。 它 们 要 么 总 是 预测 分 支 成 
功 , 要 么 总 是 预测 分 支 失 败 。 

(1) 预测 分 支 失 败 。 

当 ID 段 检测 到 分 支 指令 时 ,让 流水 线 空 等 是 一 种 “不 作为 ”的 策略 ,是 一 种 “懒惰 ”的 处 
理 方法 ,显然 不 可 取 。 可 以 让 流水 线 通过 预测 选择 两 条 分 支 路 径 中 的 一 条 ,继续 处 理 后续 指 
令 。 预 测 有 两 种 选择 : 猜测 分 支 成 功 , 或 者 猜测 分 支 失 败 。 不 管 哪 一 种 ,都 可 以 通过 编译 器 
来 优化 性 能 ,让 代码 中 最 常 执行 的 路 径 与 所 选 的 预测 方向 一 致 。 

预测 分 支 失 败 的 方法 是 沿 失败 的 分 支 继续 处 理 指令 , 即 允 许 分 支 指令 后 的 指令 继续 在 
流水 线 中 流动 ,就 好 像 什 么 都 没 发 生 似 的 。 当 确定 分 支 是 失败 时 ,就 可 以 将 分 支 指令 看 作 一 
条 普通 指令 ,流水 线 正常 流动 ,如 图 3. 27(a) 所 示 ; 当 确 定 分 支 成 功 时 ,流水 线 就 把 在 分 支 指 
令 之 后 取出 的 指令 转化 为 空 操作 ,并 按 分 支 目 标 地 址 重新 取 指 令 执行 ,如 图 3. 27(b) 所 示 。 


采用 这 种 方法 处 理 分 支 指令 的 后 续 指 令 时 ,要 保证 分 支 结果 出 来 之 前 不 会 改变 处 理 机 
的 状态 ,以 便 一 旦 猜 错 时 ,处 理 机 就 能 够 回 退 到 原先 的 状态 。 


分 支 指令 i IF | ID | EX IMEM| WB 
全 指令 i+1 IF | ID | EX |MEM| WB 
上 指令 i+2 下 ID EX IMEM| WB 
指令 #3 IF | ID | EX IMEM| WB 
(a) 分 支 失败 
分 支 指令 i IF | ID | EX IMEM| WB 
多 指令 二 1 IF | idle | idle | idle | idle 
分 支 目标 指令 IF | ID | EX |MEM| WB 
分 支 目 标 指令 +1 IF | ID | EX IMEM| WB 
(b) 分 支 成 功 
图 3.27 采用 预测 分 支 失败 方法 的 流水 线 时 空 图 
(2) 预测 分 支 成 功 。 


这 种 方法 按 分 支 成 功 的 假设 进行 处 理 。 当 流水 线 ID 段 检测 到 分 支 指 令 后 ,一旦 计算 出 
了 分 支 目标 地 址 ,就 开始 从 该 目标 地 址 取 指 令 执 行 。 

在 前 述 5 段 流水 线 中 ,由 于 判断 分 支 是 否 成 功 与 分 支 目 标 地 址 计算 是 在 同一 流水 段 完 
成 的 ,所 以 这 种 方法 对 减少 该 流水 线 的 分 支 延 迟 没有 任何 好 处 。 但 在 其 他 的 一 些 流水 线 处 
理 机 中 ,特别 是 那些 具有 隐 含 设置 条 件 码 或 分 支 条 件 更 复杂 (因而 更 慢 ) 的 流水 线 处 理 机 中 ， 
在 确定 分 支 是 否 成 功 之 前 ,就 能 得 到 分 支 的 目标 地 址 。 这 时 采用 这 种 方法 便 可 以 减少 分 支 
延迟 。 

(3) 延迟 分 支 (Delayed Branch)。 

这 种 方法 的 主要 思想 是 从 逻辑 上 * 延 长” 分支 指 令 的 执行 时 间 。 把 延迟 分 支 看 成 由 原来 
的 分 支 指令 和 若干 个 延迟 槽 构成 。 不 管 分 支 是 否 成 功 ,都 要 按 顺 序 执行 延 迟 槽 中 的 指令 。 
在 采用 延迟 分 支 的 实际 计算 机 中 , 绝 大 多 数 的 延迟 槽 都 是 一 个 , 即 

分 支 指令 

延迟 覃 

后 继 指令 
后 面 只 讨论 这 种 情况 。 

在 这 种 情况 下 ,流水 线 的 执行 情况 如 图 3. 28 所 示 。 可 以 看 出 ,只 要 分 支 延 迟 柳 中 的 指 
令 是 有 用 的 ,流水 线 中 就 没有 出 现 停顿 ,这 时 延迟 分 支 的 方法 能 很 好 地 减少 分 支 延 迟 。 

放 和 人 延迟 槽 中 的 指令 是 由 编译 器 来 选择 的 。 实 际 上 延迟 分 支 能 否 带 来 好 处 完全 取决 于 
编译 器 能 否 把 有 用 的 指令 调度 到 延迟 柳 中 。 这 也 是 一 种 指令 调度 技术 。 常 用 的 调度 方法 有 
三 种 : 从 前 调度 、 从 目标 处 调度 、 从 失败 处 调度 ,如 图 3. 29 所 示 。 图 中 ,上 面 的 代码 是 调度 
前 的 ,下 面 的 代码 是 调度 后 的 。 

图 3. 29(a) 表 示 的 是 从 前 调度 , 它 把 位 于 分 支 指令 之 前 的 一 条 独立 的 指令 移 到 延迟 槽 。 
当 无 法 采用 从 前 调度 时 ,就 采用 另外 两 种 方法 。 图 3. 29(b) 表 示 的 是 从 目标 处 调度 , 它 把 目 
标 处 的 指令 复制 到 延迟 槽 。 同 时 ,还 要 修改 分 支 指令 的 目标 地 址 ,如 图 3. 29(b) 中 的 箭头 所 
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分 支 指令 i IF | ID | EX IMEM| WB 

倪 延迟 权 指 令 二 1 IF | ID | EX IMEM| WB 

让 指令 i+2 IF | ID | EX |MEM| WB 
指令 it3 IF | ID | EX IMEM| WB 
分 支 指令 5 IF | ID | EX |MEM| WB 

多 延迟 槽 指令 二 1 IF | ID | EX IMEM| WB 

电 分 支 目标 指令 /7 IF | ID | EX |MEM| WB 

分 支 目 标 指令 着 1 IF | ID | EX IMEM| WB 


图 3.28 延迟 分 支 的 执行 情况 


示 。 之 所 以 是 复制 到 延迟 槽 ,而 不 是 把 该 指令 移 过 去 ,是 因为 从 别 的 路 径 可 能 也 要 执行 到 该 
指令 。 从 目标 处 调度 实际 上 是 猜测 了 分 支 是 成 功 的 。 所 以 当 分 支 成 功 概率 比较 高 时 (例如 
循环 转移 ) ,采用 这 种 方法 比较 好 ;否则 ,采用 从 失败 处 调度 比较 好 ( 见 图 3. 29(c))。 需 要 注 
意 的 是 , 当 猜 测 错误 时 ,要 保证 图 3. 29(b) 和 图 3. 29(c) 中 调度 到 延迟 梭 中 的 指令 的 执行 不 
会 影响 程序 的 正确 性 (当然 ,这 时 延迟 槽 中 的 指令 是 无 用 的 ) 。 在 图 3.29(b) 和 图 3. 29(c) 的 
指令 序列 中 ,由 于 分 支 指令 是 使 用 R1 来 判断 的 ,所 以 不 能 把 产生 R1 的 值 的 DADD 指令 调 


度 到 延迟 槽 。 
DADD RI1,R2,R3 DSUB R4,R5,R6 DADD RI1,R2,R3 
Ra thear = DADD RILR2.R3 | 
远 肖 枉 - 要 延迟 槽 
NT DSUB R4.RS,R6 
延迟 槽 
二 | 轩 
调度 前 
1 | 1 调度 后 
SR DADD RI1.R2.R3 
RO ene ,| ifR1=0 then 一 
DADD RLR2,R3 
ET 证 [DsuB Ra.Rs.Re | 
if R1=0 then DSUB RARSR6 
DSUB R4.R5.R6 | 
(a) 从 前 调度 (b) 从 目标 处 调度 (c) 从 失败 处 调度 


图 3. 29 调度 分 支 指令 的 三 种 常用 方法 


上 述 方法 受到 两 个 因素 的 限制 ,一 个 是 可 以 被 放 入 延迟 槽 中 的 指令 要 满足 一 定 的 条 件 ; 
另 一 个 是 编译 器 预测 分 支 转移 方向 的 能 力 。 为 了 提高 编译 器 在 延迟 槽 中 放 和 人 有 用 指令 的 能 
力 .许多 处 理 机 采用 了 分 支取 消 (canceling 或 nullifying) 机 制 。 在 这 种 机 制 中 ,分 支 指令 隐 
含 了 预测 的 分 支 执行 方向 。 当 分 支 的 实际 执行 方向 和 事先 所 预测 的 一 样 时 ,执行 分 支 延迟 
槽 中 的 指令 ;否则 就 将 该 指令 转化 成 空 操作 。 图 3. 30 给 出 了 预测 分 支 成 功 的 情况 下 ,分 支 
取消 机 制 在 分 支 成 功 和 失败 两 种 情况 下 的 执行 过 程 。 


第 
分 支 指令 i( 失 败 ) IF | ID | EX IMEM| WB 3 
全 延迟 柳 指 令 计 1 IF | idle | idle | idle | idle 章 
和 指令 i+2 IF | ID | EX |MEM| WB 
指令 it3 IF | ID | EX IMEM| WB 
分 支 指令 i( 成 功 ) IF | ID | EX IMEM| WB 
. 延迟 槽 指令 二 1 IF | ID | EX IMEM| wB 
E> 分 支 目 标 IF | ID | EX IMEM| WB 
分 支 目标 +1 IF | ID | EX IMEM| WB 


图 3.30 预测 分 支 成 功 的 情况 下 ,分 支取 消 机 制 的 执行 情况 


3.5 流水 线 的 实现 


3.4 节 给 出 了 一 个 经 典 的 5 段 流水 线 的 结构 。 本 节 将 进一步 展开 ,深入 、 细 致 地 讨论 它 
的 具体 实现 。 下 面 先 给 出 非 流 水 线 方式 下 的 实现 ,然后 再 论述 流水 方式 下 的 实现 。 这 里 用 
MIPS 指令 子 集 作为 例子 。 


3.5.1 MIPS 的 一 种 简单 实现 


图 3. 31 是 实现 MIPS 指令 子 集 的 一 种 简单 数据 通路 。 该 数据 通路 的 操作 分 成 5 个 时 
钟 周期 : 取 指令 ,指令 译 码 / 读 寄 存 器 ,执行 /有 效 地 址 计算 ,存储 器 访问 /分 支 完成 , 写 回 。 
下 面 只 讨论 整数 指令 的 实现 ,包括 load 和 store, 等 于 0 转移 ,整数 ALU 指令 等 。 

图 3. 31 中 设置 了 一 些 临 时 寄存 器 ,其 作用 如 下 。 

PC 一 一 程序 计数 器 ,存放 当前 指令 的 地 址 。 

NPC 一 一 下 一 条 程序 计数 器 ,存放 下 一 条 指令 的 地 址 。 

IR 一 一 指令 寄存 器 ,存放 当前 正在 处 理 的 指令 。 

A 一 一 第 一 操作 数 寄存 器 ,存放 从 通用 寄存 器 组 读 出 来 的 操作 数 。 

B 一 一 第 二 操作 数 寄存 器 .存放 从 通用 寄存 器 组 读 出 来 的 另 一 个 操作 数 。 

Imm 一 一 存放 符号 扩展 后 的 立即 数 操作 数 。 

cond 一 一 存放 条 件 判 定 的 结果 。 为 “ 真 ” 表 示 分 支 成 功 。 

ALUo 一 一 存放 ALU 的 运算 结果 。 

LMD 存放 load 指令 从 存储 器 读 出 的 数据 。 

在 这 个 数据 通路 上 ,最 多 花 5 个 时 钟 周 期 就 能 实现 一 条 MIPS 指令 。 这 5 个 时 钟 周 期 
及 相应 的 操作 如 下 。 

1. 取 指 令 周 期 (IF) 


JIE“-Mem[PC] 

NEPEC< PC+ 4 

以 PC 中 的 值 作为 地 址 从 存储 器 中 取出 一 条 指令 , 放 入 指令 寄存 器 (IR) ;同时 PC 值 加 
4, 然 后 放 和 人 NPC。 这 时 NPC 中 的 值 为 顺序 的 下 一 条 指令 的 地 址 。 
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| 指令 译 码 / 
取 指令 | 恋 寄 存 器 
+ 
| 
T 
时 | 
外- 站 
已 le] | 
1 
| = 
1 » 
1 通 
PC mR "| 委 到 
存储 器 (| | 看 
1 器 
1 组 |B 
| | 
1 
1 
1 
1 
1 
| 
1 
1 
U 
1 
1 
1 


Ey 
be 
wu 


图 3.31 实现 MIPS 指令 的 一 种 简单 数据 通路 


2， 指令 译 码 / 读 寄存 器 周期 (ID) 


A Regs[rs] 
B" Regs[rt] 


Jr 


— (IRe)## IRea) 


对 指令 进行 译 码 ,并 以 指令 中 的 rs 和 rt 字段 ( 见 图 2.10) 作 为 地 址 访问 通用 寄存 器 组 ， 
把 读 出 的 操作 数 分 别 放 入 A 和 B 中 。 同 时 IR 的 低 16 位 进行 符号 位 扩展 ,然后 存 人 Imm。 
指令 的 译 码 操作 和 读 寄存 器 操作 是 并 行进 行 的 。 之 所 以 可 以 这 样 ,是 因为 在 MIPS 指 
令 格式 中 ,操作 码 字 段 以 及 rs、rt 字段 都 在 固定 的 位 置 。 这 种 技术 称 为 “固定 字段 译 码 ” 
(Fixed-field Decoding) 技 术 。 另 外 ,由 于 立即 数 在 所 有 MIPS 指令 中 的 位 置 也 是 相同 的 , 因 


此 在 这 是 
这 是 


有 统一 对 其 进行 符号 扩展 ,以 备 在 下 一 个 周期 使 用 。 
有 准备 的 放 在 A、B 和 Imm 中 的 数据 在 后 面 的 周期 中 也 许 用 不 上 ,但 也 没关系 ,并 不 


影响 程序 执行 的 正确 性 。 而 统一 这 样 处 理 , 可 以 减少 硬件 的 复杂 度 。 
3. 执行 /有 效 地 址 计算 周期 (EX) 
在 这 个 周期 ,ALU 对 在 前 一 个 周期 准备 好 的 操作 数 进行 运算 。 不 同 指令 所 进行 的 操作 不 同 。 


1) load 指令 和 store 指令 


ALb<—At Im 


ALU 将 


操作 数 相 加 形成 有 效 地 址 ,并存 人 临时 寄存 器 ALUo 。 


2) 寄存 器 -寄存 器 ALU 指令 


MD<-RA funct B 


AL 


U 根据 funct 字段 ( 见 图 2.10) 指 出 的 操作 类 型 对 A 和 B 中 的 数据 进行 运算 ,并 将 


结果 存 人 ALUo 。 
3) 寄存 器 -立即 数 ALU 指令 


MUD< -Acp Im 


ALU 根据 操作 码 op 指出 的 操作 类 型 对 A 和 Imm 中 的 数据 进行 运算 ,并 将 结果 存 人 ALUo 。 
4) 分 支 指令 


了 LUoe NEC+ (Immc< 2)7 

conde (=0) 

ALU 将 临时 寄存 器 NPC 和 Imm 中 的 值 ( 左 移 两 位 后 ) 相 加 ,得 到 转移 目标 的 地 址 , 存 入 
ALUo。 之 所 以 Imm 需要 左 移 两 位 是 因为 它 给 出 的 值 是 以 字 为 单位 的 ,而 PC 和 NPC 中 的 
值 却 是 以 字 节 为 单位 的 。 

分 支 指令 在 这 一 个 周期 还 要 对 A 的 值 进行 判断 ,决定 分 支 是 否 成 功 ,判断 的 结果 存 和 人 
寄存 器 cond 中 。 进 行 何 种 判断 操作 ,取决 于 分 支 指令 的 操作 码 。 为 简单 起 见 , 这 里 只 考虑 
一 种 分 支 , 即 BEQZ(Branch if EQual Zero) ,其 操作 为 : A 为 0 则 转移 。 

这 里 将 有 效 地 址 计算 周期 和 执行 周期 合并 为 一 个 时 钟 周 期 ,这 是 因为 MIPS 指令 集 采 
用 load/store 结构 ,任何 指令 都 不 会 同时 进行 数据 有 效 地 址 的 计算 ,转移 目标 地 址 的 计算 和 
对 数据 进行 运算 。 

除了 分 支 指令 外 ,还 有 一 些 不 同形 式 的 跳 转 指令 ,它们 与 分 支 指令 相似 ,这 里 就 不 再 歼 
述 了 。 

4. 存储 器 访问 /分 支 完 成 周期 (MEMD) 

所 有 指令 都 要 在 该 周期 对 PC 进行 更 新 。 除 了 分 支 指令 ,其 他 指令 都 是 做 : PC<-NPC。 

在 该 周期 处 理 的 指令 只 有 load store 和 分 支 三 种 指令 。 

1) load 和 store 指令 

load 指令 : 


IMD< Mem[AUD] 


即 从 存储 器 中 读 出 相应 的 数据 , 放 和 人 临时 寄存 器 LMD; 


store 指令 : 
Mem[ALLb ]<B 
即将 B 中 的 数据 写 人 存储 器 。 


两 种 情况 下 均 用 ALUo 中 的 值 作为 访 存 地 址 . 它 在 上 一 个 周期 就 已 经 计算 好 了 。 

2) 分 支 指令 

if (cond) FC< AIDb else PCe NEC 

如 果 cond 中 的 内 容 为 * 真 ”. 表 明 转 移 成 功 .把 ALUo 中 的 转移 目标 地 址 放 入 PC 中 ; 否 
则 就 使 PC 指向 顺序 的 下 一 条 指令 。 

5. 写 回 周期 (WB) 

把 在 前 面 4 个 周期 中 得 到 的 结果 写 入 通用 寄存 器 组 。 

(1) 寄存 器 -寄存 器 ALU 指令 : Regs[rd]<-ALUo 
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(2) 寄存 器 -立即 数 ALU 指令 : Regs[rt]<-ALUo 

(3) load 指令 : Regs[Lrt]<-LMD 

这 个 结果 可 能 是 ALU 的 计算 结果 (ALUo 中 的 内 容 ), 也 可 能 是 从 存储 器 读 出 的 数据 
(LMD 中 的 内 容 )。 写 入 的 寄存 器 地 址 由 指令 中 的 rd 或 rt 字段 指出 ,具体 是 哪 一 个 ,由 指 
令 的 操作 码 决 定 。 

在 图 3. 31 中 ,不 同 的 操作 周期 之 间 设 置 有 存储 单元 ,用 于 保存 当前 指令 的 执行 结果 或 
者 在 上 一 个 周期 产生 且 在 后 面 周期 要 用 到 的 结果 。 其 中 PC、 通 用 寄存 器 组 .存储 器 单元 是 
在 指令 之 间 保 存 结果 ,而 临时 寄存 器 IR, NPC,A,B,Imm,cond,ALUo,LMD 则 是 在 单条 指 
令 的 执行 过 程 中 保存 中 间 结 果 。 


3.5.2 基本 的 MIPS 流水 线 


如 果 把 上 述 实现 方案 中 每 一 个 时 钟 周期 完成 的 工作 看 作 流 水 线 的 一 段 ,就 可 以 很 容易 
将 其 改造 为 流水 实现 。 流 水 段 中 的 所 有 操作 在 一 个 时 钟 周期 内 完成 ,每 个 时 钟 周期 启动 一 
条 新 的 指令 。 改 造 后 的 数据 通路 如 图 3. 32 所 示 。 


IF/ID ID/EX EX/IMEM MEM/WB 
4 ly 
>|]={M 吕 乙 分 之 
eM 加 加 Pe 结 更 |[$ 
| 1 Ba 
IR[rs] 
和 M 
四 站 | am | 前 Ee 一 
pCi 指令 IRIH 喜 局 四 2 二 | 
存储 器 MEM/WB.IR 太 志 < | 人 一 | 数据 四 M 
— 加 U 2 上 -| 存 信 器 [| 汝 [| 
| i x 
3 4 
16 /符号 \32 上 二 i 加 
| 位 上 a 全 
扩展 = 
四 |IR ~|IR 
图 3.32 MIPS 流水线 的 数据 通路 
这 里 主要 进行 了 以 下 改动 。 


(1) 设置 了 流水 寄存 器 。 

在 段 与 段 之 间 设 置 了 流水 寄存 器 。 流 水 寄存 器 的 名 称 用 其 相 邻 的 两 个 段 的 名 称 拼 合 而 
成 。 例 如 ID 段 与 EX 段 之 间 的 流水 寄存 器 用 ID/EX 表示 ,其 余 类 似 。 每 个 流水 寄存 器 是 
由 若干 个 子 寄存 器 构成 的 。 用 “x. y” 来 命名 这 些 子 寄存 器 ,用 *x. y[Ls]” 来 命名 其 所 包含 的 字 
段 。 其 中 x 为 流水 寄存 器 名 称 ,y 为 具体 子 寄 存 器 的 名 称 ,s 为 字段 名 称 。 例 如 ,ID/EX. IR 表 
示 流 水 寄存 器 ID/EX 中 的 子 寄存 器 IR,ID/EX. IR[op] 表 示 该 子 寄存 器 的 op 字段 。 

流水 寄存 器 的 作用 包括 : 

Q@ 将 各 有 段 的 工作 隔 开 ,使 得 它们 不 会 互相 干扰 。 流 水 寄存 器 是 边沿 触发 写 入 的 。 


流水 线 投 太 


@ 保存 相应 段 的 处 理 结果 。 例 如 ,EX/MEM. ALUo 保存 EX 段 ALU 的 运算 结果 ， 
MEM/WB. LMD 保存 MEM 段 从 数据 存储 器 读 出 的 数据 。 

@ 向 后 传递 后 面 将 要 用 到 的 数据 或 者 控制 信息 。 例 如 ,EX/MEM.B 传递 ID/EX.B 的 
内 容 , 供 在 MEM 段 写 人 存储 器 时 使 用 。MEM/WB. ALUo 传递 EX/MEM. ALUo 的 内 
容 , 供 在 WB 段 写 入 寄存 器 时 使 用 。 随 着 指令 在 流水 线 中 的 流动 ,所 有 有 用 的 数据 和 控制 
信息 在 每 个 时 钟 周期 都 会 往 后 传递 一 步 。 当 然 , 在 传递 过 程 中 ,只 保存 后 面 需 要 用 到 的 数据 
和 信息 ,丢弃 不 再 需要 的 信息 。 

如 果 把 PC 也 看 成 IF 段 的 流水 寄存 器 ,那么 每 个 段 就 都 有 一 个 流水 寄存 器 , 它 位 于 该 
流水 段 的 前 面 ,提供 指令 在 该 段 执行 所 需要 的 所 有 数据 和 控制 信息 。 

(2) 增加 了 向 后 传递 IR 和 从 MEM/WB.IR 回 送 到 通用 寄存 器 组 的 连接 。 

当 一 条 指令 从 ID 段 流 到 EX 段 时 ,新 的 指令 会 进入 ID 段 , 冲 掉 IFVID 中 的 内 容 。 所 以 
指令 中 的 有 用 信息 必须 跟着 指令 流动 到 ID/EX. IR, 以 此 类 推 。 后 面 需要 用 到 的 指令 信息 
要 依次 往 后 传递 ,直到 MEM/WB. IR。MEM/WB. IR 中 的 目的 寄存 器 地 址 回 送 到 通用 寄 
存 器 组 ,用 于 实现 将 结果 回 写 到 目的 寄存 器 。 实 际 上 ,除了 传递 IR 之 外 ,还 增加 了 其 他 一 
些 数据 的 传递 连接 , 详 见 图 3. 32 。 

(3) 将 对 PC 的 修改 提前 到 了 IF 段 ,以 便 PC 能 及 时 地 加 4 ,为 取 下 一 条 指令 做 好 准备 。 

为 了 详细 了 解 该 流水 线 的 工作 情况 ,需要 知道 各 种 指令 在 每 一 个 流水 段 进行 什么 样 的 操 
作 , 如 表 3.6 所 示 。 在 正 段 和 ID 段 , 所 有 指令 的 操作 都 一 样 。 从 EX 段 开 始 才 区 分 不 同 的 指 
令 。 表 中 IR[rs] 是 指 IR 的 第 6 一 第 10 位 , 即 IRso3;IR[rbo] 是 指 IRs;IR[Lrd] 是 指 IRie ao 。 


表 3.6 MIPS 流水 线 的 每 个 流水 段 的 操作 


流水 段 所 有 指令 


IE/ID.IR<-MEm[EC]; 

正 IF/ID.NEC, PC*— (if( (EX/MEM. IR[op]==branch) & EX/MEM.cond) 
{EX/MEM.ALLb } else {PC+ 4}); 

ID/EX.A*~Regs [IF/ID.IR[rs]];ID/EX.B*—Regs[IF/ID.IR[rt]]; 
ID ID/EX.NEC*— IF/ID.NEC; ID/EX.IR*- IF/ID.IR; 

ID/EX. I (IF/ID.IRie)™##IF/ID.IRe.a; 


ALU 指令 


load/store 指令 


分 支 指令 


EX/MEM.AILb <— 
- EX/MEM.ALIb <— 
Ex | D/A finct ID/EX.B EX/MEM.ALL i ee 
或 ID/EX.A+ ID/EX. Tm; 
EX/MEM.ALLb <— EX/MEM.B*— ID/EX.B; /t= 0 


MEM/WB .IMD< 
MEM/WB. IR<— EX/MEM. IR; Mam AIIb]; 
MEM | MEM/WB.ALb <— 7 ge 
EX/MEM.AIIb 
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续 表 
ALU 指令 load/store 指令 分 支 指令 


Regs MEM/WB. IR[rd]]=— 


bE Regs [MEM/WB. IR[rt]]< 
WB | 或 Tp 
Regs MEM/NWB. IR[rt]]* > 
MEMB.ALUD 7 


为 了 控制 该 流水 线 的 工作 ,主要 是 要 确定 如 何 控制 图 3. 32 中 的 4 个 多 路 器 。 具 体 来 
说 ,就 是 : 
© MUX2 


if(ID/EX.IRIop]== "分支 指令 ") 

{ MI2_output= ID/EX.NEC }; /AMDX2 cutput 表示 MIX2 的 输出 
else MUX2_ output= ID/EX.A; 
©® MUX3 
秆 (GD/ 改 . 耻 [cplj== "寄存器 -寄存 器 型 LD 指令 ") 

{ MUX3_output= ID/EX.B }; /M3_output 表示 M023 的 输出 
else MJX3_output= ID/EX. Irm; 
®@ MUXI1 


寺 ((ID/EX.IR[op]==" 分 支 指令 ")& EFEX/MEM.cond) 

{ MIX1 output= EX/MEM.ALL }; /MDXL output 表示 MUX1 的 输出 
else MJX] output= PC+ 4; 
@ MUX4 


if (ID/EX.IR[op]== "load") 
{ MUX4_output= MEM/WB.IMD }; /MUX4 output 表示 MUX4 的 输出 

else MJX4_output— MIM/WB.ALb; 

此 外 ,还 有 一 个 多 路 器 图 中 没有 画 出 。 就 是 从 MEM/WB 回 传 至 通用 寄存 器 组 的 写 和 人 
地 址 应 该 是 从 MEM/WB. IRLrd] 和 MEM/WB. IRLrt] 中 选 一 个 。 如 果 是 寄存 器 -寄存 器 型 
ALU 指令 , 则 选择 前 者 ;否则 就 选择 后 者 。 

为 了 使 该 流水 线 正常 工作 ,还 要 解决 好 数据 冲突 的 问题 。 对 于 该 流水 线 而 言 ,所 有 的 数 
据 冲突 均 可 以 在 ID 段 检测 到 。 如 果 存 在 数据 冲突 ,就 在 相应 的 指令 流出 ID 段 之 前 将 之 暂 
停 。 完 成 该 工作 的 硬件 称 为 流水 线 的 互 锁 机 制 。 类 似 地 , 若 采 用 了 定向 技术 ,就 可 以 在 ID 
段 确定 需要 什么 样 的 定向 ,并 设置 相应 的 控制 。 按 这 样 处 理 , 就 不 必 在 流水 过 程 中 将 已 经 改 
变 了 机 器 状态 的 指令 挂 起 ,可 以 降低 流水 线 的 硬件 复杂 度 。 另 外 一 种 处 理 方 法 是 在 使 用 操 
作 数 的 那个 时 钟 周 期 (上 述 流 水 线 中 的 EX 和 MEM 段 ) 的 开始 检测 冲突 和 确定 必需 的 
定向 。 

检测 冲突 是 通过 比较 寄存 器 地 址 是 否 相 等 来 实现 的 。 例 如 ,在 load 已 经 进入 EX 段 
时 ,车 要 在 ID 段 检测 当前 指令 是 否 由 于 使 用 那 条 load 指令 的 结果 而 导致 的 RAW 冲突 ,只 


要 做 以 下 比较 就 可 以 了 。 
第 一 种 情况 , ID 段 中 的 当前 指令 是 寄存 器 -寄存 器 型 ALU 指令 。 w 
比较 


ID/EX. IRIrt]= IF/ID. IR[rs] 
或 者 
ID/EX. IRIrt]= IE/ID. IR[rt] 


第 二 种 情况 : ID 段 中 的 当前 指令 是 load、store、ALU 立即 数 或 分 支 指令 。 
比较 


ID/EX. IR[rt]= IF/ID. IR[rs] 


这 种 由 于 使 用 load 的 结果 而 引起 的 流水 线 互 锁 称 为 load 互 锁 。 

一 旦 硬件 检测 到 上 述 RAW 冲突 ,流水线 互 锁 机 制 必须 在 流水 线 中 搬入 停顿 ,并 使 当前 
正 处 于 I 段 和 ID 段 的 指令 不 再 前 进 。 为 实现 这 点 ,只 要 将 ID/EX. IR 中 的 操作 码 改 为 全 
零 ( 全 零 表示 空 操作 ) ,并 将 IF/ID 寄存 器 的 内 容 回 送 到 自己 的 入 口 即 可 。 

定向 逻辑 要 考虑 的 情况 更 多 ,因此 其 实现 比 上 述 冲 突 检测 机 制 更 复杂 。 类 似 地 , 它 也 是 
通过 比较 流水 寄存 器 中 的 寄存 器 地 址 来 确定 的 。 例 如 ,如 果 检测 到 以 下 条 件 成 立 : 

(ID/EX.IR.op-= "寄存 器 -寄存 器 型 LD 指令 ")& (EXW/MEM.IR.op-=" 寄 存 器 -寄存 器 型 ALD 指 令 ")&(ID/EX. 人 R 

[rt]==EX/MEM. IR[rd]) 
即 EX 段 和 MEM 段 中 的 指令 都 是 寄存 器 -寄存 器 型 ALU 指令 ,而 且 MEM 段 中 指令 的 目 
的 寄存 器 地 址 与 EX 段 中 指令 的 第 二 源 操 作 数 地 址 相同 , 则 需要 把 EX/ MEM. ALUo 定向 
到 ALU 的 下 面 一 个 输入 。 

又 如 ,如 果 检 测 到 以 下 条 件 成 立 : 


(D/EX.TRIcpj==' 窗 存 器 -寄存 器 型 LD 指令 ")s MMNB.IRIgp]==10ad)& (ID/EX.IR[rt]== 
MEM/NWB.IR[rt]) 


即 EX 段 中 的 指令 是 寄存 器 -寄存 器 型 ALU 指令 ,WB 段 中 的 指令 是 load, 而 且 该 load 指令 
的 目的 寄存 器 地 址 与 EX 段 中 指令 的 第 二 源 操作 数 地 址 相同 , 则 需要 把 MEM/ 
WB. LMD 定向 到 ALU 的 下 面 一 个 输入 。 

类 似 地 ,可 以 列 出 所 有 的 情况 ,这 里 不 再 袭 述 。 

在 该 流水 线 中 ,分支 指令 的 条 件 测试 和 分 支 目 标 地 址 计算 是 在 EX 段 完成 的 ,对 PC 的 
修改 是 在 MEM 段 完成 的 。 它 所 带 来 的 分 支 延迟 是 三 个 时 钟 周期 。 为 了 减少 分 支 延 迟 , 需 
尽早 完成 这 些 工作 。 如 果 只 考虑 BEQZ 和 BNEZ. 就 可 以 把 这 些 工 作 提前 到 ID 段 进行 。 为 
此 ,需要 在 ID 段 增设 一 个 加 法 器 ,用 于 计算 分 支 目 标 地 址 ,并 把 条 件 测试 “二 0?” 的 逻辑 电路 
移 到 ID 段 。 这 些 结果 要 直接 回 送 到 IF 段 的 MUX1, 如 图 3. 33 所 示 。 这 样 ,分 支 延 迟 就 减 
少 为 一 个 时 钟 周期 。 改 进 后 的 流水 线 对 分 支 指令 的 处 理 变 成 了 表 3. 7 的 操作 。 其 中 斜体 部 
分 表示 与 表 3. 6 不 同 的 操作 。 改 进 后 的 分 支 延迟 变 成 了 一 个 时 钟 周期 。 
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图 3.33 为 减少 分 支 延迟 ,对 图 3. 31 进行 改进 后 的 流水 线 数据 通路 


表 3.7 改进 后 流水 线 的 分 支 操作 


流水 段 分 支 指令 
IE/ID.IR*-Mem[PC]; 

IF TE/ID.NRC, PC (if ((IE/ID[qP]==branch)s (Regs[IE/ID.IR[rs]]==0)) 
{IE/ID.NPC+ (IF/ID. IRe)*## (IE/ID.IRea <<2)} else {PC+ 4)); 
ID/EX.AN-—Regs [IF/ID. IR[rs]]; ID/EX.B <-Regs[IF/ID. IR[rt]]; 

ID ID/EX.IR*- IE/ID.IR; 
ID/EX. Tm (IE/ID.IRie)*## IE/ID. IRea; 

EX 

MEM 

WB 


3.1 解释 下 列 名 词 。 
流水 线 技术 

部 件 级 流水 线 

多 功能 流水 线 

非 线性 流水 线 
流水 线 加 速 比 

名 相关 

控制 相关 


通过 时 间 
指令 流水 线 
静态 流水 线 
顺序 流水 线 
流水 线 的 效率 
反 相 关 
流水 线 冲 突 


排 空 时 间 
系统 级 流水 线 
动态 流水 线 
乱 序 流水 线 
相关 

输出 相关 
结构 冲突 


定向 技术 

单 功能 流水 线 
线性 流水 线 
吞吐 率 

数据 相关 

换 名 技术 
数据 冲突 


控制 冲突 写 后 读 冲 突 写 后 写 冲 突 读 后 写 冲突 

3.2 简 述 流水 线 技术 的 特点 。 

3.3 简 述 通过 软件 (编译 器 ) 来 减少 分 支 延迟 的 三 种 方法 ,这 些 方法 的 共同 特点 是 
什 次 4 

3.4 简 述 延 迟 分 支 方法 中 的 三 种 调度 策略 的 优 缺 点 。 

3.5 在 一 条 单 流水 线 多 操作 部 件 的 处 理 机 上 执行 下 面 的 程序 , 取 指 令 .指令 译 码 各 需 
一 个 时 钟 周期 ,MOVE、ADD 和 MUL 操作 各 需要 2 个 3 个 和 4 个 时 钟 周期 。 每 个 操作 都 
在 第 一 个 时 钟 周期 从 通用 寄存 器 中 读 操作 数 ,在 最 后 一 个 时 钟 周期 把 运算 结果 写 到 通用 寄 
存 器 中 。 

k: MNE Rl,RO ;RI<— (RO) 

Ktl: ML RO,R2,RI ?RO (R2) * (R1) 

Kt2: ADD RO,R3,R2 ;RO (R2)+ (R1) 

画 出 指令 执行 的 流水 线 时 空 图 ,并 计算 执行 完 三 条 指令 共 使 用 了 多 少 个 时 钟 周期 。 

3.6 有 一 指令 流水 线 如 图 3. 34 所 示 。 


入 一 =| 1 ~ 2 ~ 3 上 4 一 出 
50ns 50ns 100ns 200ns 
图 3.34 题 3.6 图 


(1) 求 连续 输入 10 条 指令 ,该 流水 线 的 实际 吞吐 率 和 效率 ; 

(2) 该 流水 线 的 “瓶颈 "在 哪 一 段 ? 请 采取 两 种 不 同 的 措施 消除 此 “瓶颈 ”。 对 于 你 所 给 
出 的 两 种 新 的 流水 线 ,连续 输入 10 条 指令 时 ,其 实际 吞吐 率 和 效率 各 是 多 少 ? 

3.7 有 一 个 流水 线 由 4 段 组 成 ,其 中 每 当 流 经 第 3 段 时 ,总 要 在 该 段 循环 一 次 ,然后 才 
能 流 到 第 4 段 。 如 果 每 段 经 过 一 次 所 需要 的 时 间 都 是 Ai, 请 问 : 

(1) 当 在 流水 线 的 输入 端 连续 地 每 At 时 间 输 入 一 个 任务 时 ,该 流水 线 会 发 生 什么 
情况 ? 

(2) 此 流水 线 的 最 大 吞吐 率 为 多 少 ? 如 果 每 2At 输入 一 个 任务 ,连续 处 理 10 个 任务 时 
的 实际 吞吐 率 和 效率 是 多 少 ? 

(3) 当 每 段 时 间 不 变 时 ,如 何 提高 该 流水 线 的 吞吐 率 ?” 仍 连续 处 理 10 个 任务 时 ,其 吞 
吐 率 提高 到 多 少 ? 

3.8 有 一 条 动态 多 功能 流水 线 由 5 段 组 成 (如 图 3. 35 所 示 ), 加 法 用 1、3、4、5 段 ,乘法 
用 1.2.5 段 ,第 2 段 的 时 间 为 2At, 其 余 各 有 段 的 时 间 均 为 Ai, 而且 流水 线 的 输出 可 以 直接 返 


回 输 入 端 或 暂 存 于 相应 的 流水 寄存 器 中 。 若 在 该 流水 线 上 计算 2 (4 X Bi;), 试 计算 其 吞 
吐 率 、 加 速 比 和 效率 。 


Ai Ar At 
-| | -| | 一 
2 3 4 5 
一 =~| “上 -| -= ”上 一 
Ar 2Ar = 
乘法 


图 3.35 题 3.8 图 
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3.9 在 一 个 5 段 流水 线 处 理 机 上 ,各 段 执行 时 间 均 为 At, 需 经 9At 才能 完成 一 个 任 
务 ,其 预约 表 如 表 3. 8 所 示 。 


表 3.8 题 3.9 表 格 


功能 有 时 间 1 2 3 4 5 6 视 8 9 
各 V NA 
S: Vv ~V 
名 JV V/ V 
Si V NA 
S, Vv Sh 


(1) 画 出 流水 线 任务 调度 的 状态 转移 图 。 

(2) 求 流水 线 的 最 优 调度 策略 和 流水 线 的 最 大 吞吐 率 。 

(3) 按 最 优 调度 策略 连续 输入 6 个 任务 ,流水 线 的 实际 吞吐 率 是 多 少 ? 
3.10 有 一 个 5 段 流水 线 , 各 段 执行 时 间 均 为 At, 其 预约 表 如 表 3. 9 所 示 。 


表 3.9 题 3.10 表 格 


二 时 间 2 3 4 5 6 7 
Si V NA 
S: ~ Vv 
全 Nh Vv 
S NA NA 
3 Nh V/ 


(1) 画 出 流水 线 任 务 调度 的 状态 转移 图 。 

(2) 分 别 求 出 允许 不 等 时 间 间 隔 调度 和 等 时 间 间 隔 调度 的 两 种 最 优 调度 策略 ,计算 这 
两 种 调度 策略 的 流水 线 最 大 吞吐 率 。 

(3) 若 连续 输入 10 个 任务 .分 别 求 采用 这 两 种 调度 策略 的 流水 线 的 实际 吞吐 率 和 加 
速 比 ? 

3.11 在 MIPS 流水 线 上 运行 以 下 代码 序列 。 


IOOP: IW R1,0(R2) 
DRDDIU Rl,RI,#1 
Bul Rl,0®2) 


DRDDIU  R2,R2,#4 
DSUB R4,R3,R2 
ENEZ R4,IOOP 


其 中 ,R3 的 初 值 是 R2 十 396。 假 设 : 在 整个 代码 序列 的 执行 过 程 中 ,所 有 的 存储 器 访问 都 
是 命中 的 ,并 且 在 一 个 时 钟 周期 中 对 同一 个 寄存 器 的 写 操作 和 读 操 作 可 以 通过 分 别 把 它们 


安排 在 前 半 个 时 钟 周期 和 后 半 个 时 钟 周期 来 实现 。 请 问 : 

(1) 在 没有 任何 其 他 定向 (或 旁 路 ) 硬 件 的 支持 下 .请 画 出 该 指令 序列 执行 的 流水 线 时 
空 图 。 假设 采用 排 空 流水 线 的 策略 处 理 分 支 指令 , 且 所 有 的 存储 器 访问 都 命中 Cache, 那 么 
执行 上 述 循环 需要 多 少 个 时 钟 周期 ? 

(2) 假设 该 流水 线 有 正常 的 定向 路 径 ,请 画 出 该 指令 序列 执行 的 流水 线 时 空 图 。 假 设 
采用 预测 分 支 失败 的 策略 处 理 分 支 指令 , 且 所 有 的 存储 器 访问 都 命中 Cache, 那 么 执行 上 述 
循环 需要 多 少 个 时 钟 周期 ? 

(3) 假设 该 流水 线 有 正常 的 定向 路 径 和 一 个 单 周 期 延迟 分 支 ,请 对 该 循环 中 的 指令 进 
行 调度 ,你 可 以 重新 组 织 指令 的 顺序 ,也 可 以 修改 指令 的 操作 数 ,但 是 注意 不 能 增加 指令 的 
条 数 。 请 画 出 该 指令 序列 执行 的 流水 线 时 空 图 ,并 计算 执行 上 述 循环 所 需要 的 时 钟 周期 数 。 

3.12 假设 各 种 分 支 指令 数 占 所 有 指令 数 的 百分比 如 下 。 


条 件 分 支 20%( 其 中 的 60% 是 分 支 成 功 的 ) 
跳 转 和 调用 5% 


现 有 一 条 段 数 为 4 的 流水 线 , 无 条 件 分 支 在 第 二 个 时 钟 周期 结束 时 就 被 解析 出 来 ,而 条 
件 分 支 要 到 第 三 个 时 钟 周期 结束 时 才能 够 被 解析 出 来 。 第 一 个 流水 段 是 完全 独立 于 指令 类 
型 的 , 即 所 有 类 型 的 指令 都 必须 经 过 第 一 个 流水 段 的 处 理 。 请 问 在 没有 任何 控制 相关 的 情 
况 下 ,该 流水 线 相对 于 存在 上 述 控 制 相关 情况 下 的 加 速 比 是 多 少 ? 


第 章 
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内 容 提 要 

(1) 向 量 的 处 理 方式 ; 

(2) 向 量 处 理 机 的 结构 ; 

(3) 提高 向 量 处 理 机 性 能 的 常用 技术 ; 
(4) 向 量 处 理 机 的 性 能 评价 ; 

(5) 向 量 处 理 机 实例 。 


向 量 是 计算 机 系统 中 经 常 使 用 的 一 种 数据 类 型 ,向 量 由 一 组 有 序 、 具 有 相同 类 型 和 位 数 
的 元 素 组 成 。 它 特别 适合 进行 流水 处 理 。 为 了 充分 发 挥 流水 线 处 理 机 的 效率 ,实现 高 性 能 
计算 ,有 的 流水 线 处 理 机 设置 了 向 量 数据 表示 和 相应 的 向 量 指令 。 这 种 处 理 机 称 为 向 量 处 
理 机 。 而 我 们 在 第 3 章 中 讨论 的 流水 线 处 理 机 则 不 具有 向 量 数据 表示 和 向 量 指令 ,这 种 处 
理 机 称 为 标量 处 理 机 。 

流水 线 非常 适合 进行 大 批量 重复 且 互 相 没 有 关联 的 计算 ,而 科学 计算 领域 内 的 许多 问 
题 正 好 符合 这 个 特点 ,许多 运算 可 以 表示 为 向 量 的 运算 。 所 以 向 量 处 理 机 最 早出 现时 ,主要 
是 用 于 科学 计算 。 

早期 典型 的 向 量 处 理 机 是 1976 年 出 现 的 Cray-l 超级 计算 机 。 其 浮 点 运算 速度 达到 了 
每 秒 1 亿 次 。 后 来 又 陆续 出 现 了 许多 高 性 能 的 向 量 处 理 机 ,如 CDC Cyber 205, Cray 
Y-MP,NEC SX-X/44,Fujitsu VP2600 等 ,其 性 能 达到 了 每 秒 几 十 亿 至 几 百 亿 次 浮 点 运算 。 
这 些 向 量 处 理 机 的 性 能 价格 比 往往 很 高 ,与 价格 相当 的 标量 处 理 机 相 比 ,其 吞吐 率 往往 要 高 
出 1 一 2 个 数量 级 。 它 们 在 科学 计算 中 得 到 了 广泛 的 应 用 。 但 是 ,向 量 处 理 机 也 具有 一 定 的 
专用 性 ,其 高 性 能 是 局 限于 求解 那些 可 以 转化 为 向 量 运算 的 问题 的 。 


4.1 向 量 的 处 理 方式 


向 量 的 处 理 方式 有 三 种 : 横向 处 理 方式 .纵向 处 理 方式 ,纵横 处 理 方式 。 采 用 不 同 的 处 
理 方式 ,其 向 量 处 理 机 的 结构 也 会 相应 地 不 同 。 下 面 以 计算 表达 式 D 二 AX (B 一 CO) 为 例 来 
说 明 向 量 的 处 理 方式 。 其 中 A、B、C.D 都 是 长 度 为 N 的 向 量 , 设 4 一 (al,az,…,av), 卫 一 
(Bisbas™s by) C= (ersca ss cn) 一 (Gd 

1. 横向 处 理 方式 

在 横向 处 理 方式 中 ,是 按 行 的 方式 从 左 到 右 横 向 地 进行 计算 的 。 对 于 给 定 的 例子 也 一 


向 量 处 理 机 


4X(B 一 C) ,就 是 逐个 求 d;。 
先 计算 w X (bi 一 c) 一 di 


再 计算 az X (如 一 cz ) 一 da 


最 后 计算 axX (bn 一 cw) 一 dv 
一 般 的 计算 机 就 是 采用 这 种 方式 组 成 循环 程序 进行 处 理 的 。 每 次 循环 完成 以 下 计算 
( 共 循 环 N 次 )。 
已 一 ci 一 di 
aiXdi 一 di 
进行 流水 处 理 时 ,在 每 次 循环 中 都 会 发 生 一 次 数据 相关 。 显 然 , 这 种 处 理 方式 只 适合 一 
般 的 处 理 机 ,不 适合 向 量 处 理 机 的 并 行 处 理 。 
2. 纵向 处 理 方 式 
在 纵向 处 理 方式 中 ,向 量 计算 是 按 列 的 方式 从 上 到 下 纵向 地 进行 的 。 也 就 是 说 ,是 将 整 
个 向 量 按 相 同 的 运算 处 理 完 之 后 ,再 去 进行 别 的 运算 。 对 于 上 述 例子 ,就 是 先 完成 


b= oi 


bn—cNn— qn 
再 计算 
aXqa>di 


an XgN 一 CN 
表示 成 向 量 指令 ,就 是 
B—C—0 
AxXQ@—>D 
这 里 ,在 每 条 向 量 指令 内 都 是 单一 相同 的 运算 ,相关 只 发 生 在 向 量 之 间 , 只 有 一 次 。 这 
种 处 理 方式 适用 于 向 量 处 理 机 。 
3. 纵横 处 理 方式 
纵横 处 理 方 式 又 称 为 分 组 处 理 方式 .是 上 述 两 种 方法 的 一 种 结合 。 它 是 把 向 量 分 成 若 
干 组 ,组 内 按 纵向 方式 处 理 , 依 次 处 理 各 组 。 
对 于 上 述 的 例子 , 设 


六 一 SX7 十 
其 中 N 为 向 量 长 度 ,S 为 组 数 , 为 每 组 的 长 度 ,r 为 余数 。 若 余下 的 -个 数 也 作为 一 组 处 
理 , 则 共有 S 十 1 组 。 


其 运算 过 程 如 下 。 
先 算 第 一 组 。 
Bi~s — Ci~s 一 人 ~- 
Ai~s XQis Di-s 
再 算 第 二 组 。 


Bort ~zn — Cert ~2n > QontD~2n 
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Acmty~zn XQ@Qeb~a 一 了 ob~zn 
以 此 进行 下 去 ,直到 计算 完 最 后 一 组 , 即 第 S 十 1 组 。 
Bssty~N 一 CHD~N 一 CDb~N 
AcsnrD~N X Qesntv~N > Dosnty~N 
可 以 看 出 ,执行 时 每 组 只 发 生 一 次 数据 相关 。 这 种 处 理 方式 也 适用 于 向 量 处 理 机 。 
这 种 处 理 方式 对 向 量 长 度 N 的 大 小 亦 不 限制 ,但 它 是 以 每 n 个 元 素 为 一 组 进行 分 组 处 
理 的 。n 的 值 是 固定 的 。 


4.2 向量 处 理 机 的 结构 


向 量 处 理 机 的 结构 因 具 体 机 器 的 不 同 而 不 同 。 可 以 说 , 它 是 由 所 采用 的 向 量 处 理 方式 
决定 的 。 有 两 种 典型 的 结构 : 存储 器 -存储 器 型 结构 ,寄存 器 -寄存 器 型 结构 。 纵 向 处 理 方式 
宜 采 用 前 者 ,而 分 组 处 理 方式 则 宜 采 用 后 者 。 
4.2.1 “存储 器 -存储 器 ”结构 

在 纵向 处 理 方式 中 ,向 量 长 度 N 的 大 小 不 受 限制 ,无 论 N 有 多 大 ,相同 的 运算 都 用 一 
条 向 量 指令 完成 。 采 用 这 种 处 理 方式 的 向 量 处 理 机 需要 采用 “存储 器 -存储 器 "结构 , 即 向 量 
指令 的 源 向 量 和 目的 向 量 都 是 存放 在 存储 器 中 的 ,运算 的 中 间 结 果 需 要 送 回 存储 器 (而 不 能 
通过 设置 向 量 寄存 器 来 存放 )。 在 这 种 向 量 处 理 机 中 ,流水 线 运算 部 件 的 输入 和 输出 端 都 直 
接 (或 经 过 缓冲 器 ) 与 存储 器 相连 ,从 而 构成 “存储 器 -存储 器 ”型 操作 的 运算 流水 线 ,如 
图 4.1 所 示 。 早期 的 向 量 处 理 机 如 Star 100、Cyber 205 等 都 是 采用 这 种 结构 的 。 


缓冲 器 [| | 流水 处 理 部 件 


缓冲 器 


图 4.1 “存储 器 -存储 器 "型 操作 的 运算 流水 线 


要 使 这 种 结构 的 流水 线 充分 发 挥 效 率 ,存储 器 要 不 断 地 提供 源 操 作 数 ,并 不 断 地 从 运算 
部 件 接收 结果 。 具 体 来 说 ,就 是 每 拍 从 存储 器 读 取 两 个 数据 ,并 向 存储 器 写 回 一 个 结果 。 所 
以 ,这 种 结构 对 存储 器 的 带宽 以 及 存储 器 与 处 理 部 件 的 通信 带宽 提出 了 非常 高 的 要 求 。 一 
般 是 通过 采用 多 体 交 叉 并 行 存储 器 和 缓冲 器 技术 来 解决 的 。 例 如 ,20 世纪 70 年 代 初 问世 
的 Star 100 就 是 把 存储 器 设计 成 32 个 体 交 叉 , 且 每 个 体 的 数据 宽度 又 是 8 个 字 ( 字 长 64 
位 ) ,其 最 大 数据 流量 达到 了 每 秒 2 亿 字 。 


4.2.2 “于 存 器 - 奇 存 器 ”结构 


在 向 量 的 分 组 处 理 方式 中 ,向 量 被 分 为 每 n 个 数据 一 组 。 以 组 为 单位 进行 数据 的 存 取 
和 和 运算。 虽然 这 种 方式 对 向 量 长 度 N 没有 限制 ,但 组 的 长 度 n 却 是 固定 不 变 的 ,所 以 可 以 
设置 能 快速 访问 的 向 量 寄存 器 ,用 于 存放 源 向 量 、 目 的 向 量 及 中 间 结 果 。 让 运算 部 件 的 输入 
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输出 端 都 与 向 量 寄存 器 相连 ,就 构成 了 “寄存 器 -寄存 器 ”型 操作 的 运算 流水 线 。 美 国 的 
Cray-1 和 我 国 的 YH-1 巨型 机 是 典型 的 “寄存 器 -寄存 器 ”结构 的 向 量 处 理 机 。 


下 面 以 Cray-1 机 为 例 , 介 绍 “ 寄 存 器 -寄存 器 ”型 向 量 处 理 机 的 结构 和 特点 。 


Cray-1 是 美国 Cray 公司 于 1976 年 推出 的 巨型 机 , 它 的 时 钟 周 期 是 12. 5ns, 其 浮 点 运 
算 速度 达到 了 每 秒 1 亿 次 以 上 。 图 4.2 是 Cray-l 中 央 处 理 机 中 有 关 向 量 流水 处 理 部 分 的 
简 图 。 它 由 以 下 几 个 部 分 构成 。 


向 量 寄存 器 组 (8x64 个 ) 
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图 4.2 Cray-l 中 央 处 理 机 中 有 关 向 量 流水 处 理 部 分 的 简 图 


(1) 功能 部 件 。 
共有 12 条 可 并 行 工 作 的 单 功能 流水 线 , 可 分 别 流水 地 进行 地 址 向量、 标量 的 各 种 运 
算 。 它 为 向 量 运算 提供 了 6 个 单 功能 流水 部 件 : 整数 加 (3 拍 )、 浮 点 加 (6 拍 )、 浮 点 乘 
(7 拍 ) 、 浮 点 迭代 求 倒数 (14 拍 ) 、 逻 辑 运算 (2 拍 ) , 移 位 (4 拍 )。 括 号 中 的 数字 为 其 通过 时 间 
( 拍 数 ) ,每 拍 为 一 个 时 钟 周期 , 即 12. 5ns。 任 何 一 条 流水 线 只 要 满 负 荷 工 作 , 就 可 以 每 拍 流 


出 一 个 结果 元 素 。 


(2) 向 量 寄存 组 V。 

由 512 个 64 位 的 寄存 器 组 成 ,分 成 8 组 ,编号 为 Vo。 至 V;。 每 一 个 组 称 为 一 个 向 量 寄 
存 器 ,可 存放 一 个 长 度 不 超过 64 的 向 量 。 对 于 长 度 超过 64 的 长 向 量 , 需 用 向 量 循环 进行 分 
段 处 理 ,每 段 的 长 度 为 64 个 元 素 。 当 然 ,最 后 剩余 的 一 段 可 能 小 于 64。 

每 个 向 量 寄存 器 可 以 每 拍 向 功能 部 件 提供 一 个 数据 元 素 ,或 者 每 拍 接收 一 个 从 功能 部 


件 来 的 结果 元 素 。 


(3) 标量 寄存 器 S 和 快速 暂 存 器 TT。 
标量 寄存 器 有 8 个: Su 一 S, .都 是 64 位 。 
快速 暂 存 器 用 于 在 标量 寄存 器 和 存储 器 之 间 提 供 缓 冲 。 
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(4) 向 量 屏蔽 寄存 器 VM。 


向 量 屏蔽 寄存 器 VM 为 64 位 ,每 一 位 对 应 于 向 量 寄存 器 的 一 个 单元 。 其 作用 是 用 于 


向 量 的 归并 、 压 缩 、 还 原 和 测试 操作 等 ,也 可 用 于 实现 对 向 量 某 些 元 素 的 单独 运算 。 


为 了 能 充分 发 挥 向 量 寄存 器 和 可 并 行 工作 的 6 个 流水 线 功 能 部 件 的 作用 ,加 快 对 向 量 
的 处 理 ,Cray-1 中 的 每 个 向 量 寄存 器 V; 都 有 连 到 6 个 向 量 功 能 部 件 的 单独 总 线 , 而 每 个 向 
量 功 能 部 件 也 都 有 把 运算 结果 送 回 向 量 寄存 器 组 的 总 线 。 这 样 ,只 要 不 出 现 V; 冲突 和 功能 
部 件 冲 突 , 各 V; 之 间 和 各 功能 部 件 之 间 就 能 并 行 工作 ,大 大 加 快 了 向 量 指令 的 处 理 ,这 是 


Cray-l 向 量 处 理 的 一 个 显著 特点 。 


部 件 冲突 是 指 并 行 工 作 的 各 向 量 指令 要 使 用 同一 个 功能 部 件 。 


Cray-l 的 指令 系统 包括 标量 类 和 向 量 类 指令 共 128 条 ,其 中 四 种 向 量 指令 如 图 4. 3 所 
示 。 这 里 的 是 通过 流水 线 功 能 部 件 的 节拍 数 。 第 一 种 指令 从 向 量 寄存 器 V;、V 取得 源 
向 量 , 进 行 运算 操作 后 结果 送 入 向 量 寄存 器 V;。 第 二 种 指令 与 第 一 种 的 差别 在 于 它 的 一 个 
操作 数 取 自 标 量 寄 存 器 S; 。 大 多 数 向 量 指令 都 属于 这 两 种 。 由 于 它们 不 是 从 主 存 而 是 从 
向 量 寄 存 器 取得 操作 数 ,结果 也 是 存 人 向 量 寄存 器 ,所 以 流水 速度 很 高 ,而 且 减 少 了 对 主 存 
带宽 的 要 求 。 第 三 、 第 四 种 指令 用 于 实现 主 存 与 向 量 寄存 器 组 之 间 的 成 组 数据 传送 。 访 存 


流水 线 的 通过 时 间 为 6 拍 。 
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图 4.3 Cray-1 的 四 种 向 量 指令 
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4.3 ”提高 向 量 处 理 机 性 能 的 常用 技术 


为 了 提高 向 量 处 理 机 的 性 能 ,可 采用 多 种 方法 。 
(1) 设置 多 个 功能 部 件 , 使 它们 并 行 工作 ; 
(2) 采用 链接 技术 ,加 快 一 串 向 量 指令 的 执行 ; 
(3) 采用 循环 开采 技术 ,加 快 循环 的 处 理 ; 


V; 冲突 是 指 并 行 工作 的 各 向 量 指令 的 源 向 量 或 结果 向 量 使 用 了 相同 的 V;。 所 谓 功 能 


对于 
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(4) 采用 多 处 理 机 系统 ,进一步 提高 性 能 。 
4.3.1 设置 多 个 功能 部 件 章 


在 向 量 处 理 机 中 ,为 了 提高 性 能 ,通常 都 设置 多 个 独立 的 功能 部 件 。 这 些 部 件 能 按 流水 
方式 并 行 工作 ,从 而 形成 了 多 条 并 行 工作 的 运算 操作 流水 线 。 例 如 在 前 面 介绍 的 Cray-1 向 
量 处 理 机 中 ,有 4 组 12 个 单 功能 流水 部 件 。 

(1) 向 量 部 件 : 向 量 加 , 移 位 ,逻辑 运算 。 

(2) 浮 点 部 件 : 浮 点 加 , 浮 点 乘 , 浮 点 求 倒数 。 

(3) 标量 部 件 : 标量 加 , 移 位 ,逻辑 运算 , 数 “1?/ 计 数 。 

(4) 地 址 运算 部 件 : 整数 加 ,整数 乘 。 


4.3.2 链接 技术 

当 流 出 向 量 指令 时 ,需要 占用 相关 的 功能 流水 线 和 向 量 寄存 器 ,以 完成 相关 的 功能 操作 
或 运算 。 只 有 等 该 指令 执行 完毕 , 才 可 以 释放 功能 流水 线 和 向 量 寄存 器 。 占 用 多 少时 间 取 
决 于 向 量 的 长 度 和 流水 线 延 迟 。 下 面 讨论 两 条 向 量 指令 占用 功能 流水 线 和 向 量 寄存 器 的 
4 种 情况 。 


1. 指令 不 相关 
例如 : 
Vo< 和 Vi 十 V: 
Ve—V.XVs 
这 两 条 指令 分 别 使 用 各 自 所 需 的 流水 线 和 向 量 寄存 器 ,可 以 并 行 执 行 。 
2. 功能 部 件 冲突 
例如 : 
Vs<Vi 十 V: 
Ve<V 十 Vs 


这 两 条 指令 都 要 使 用 加 法 流水 线 , 发 生 了 功能 部 件 冲突 (但 向 量 寄存 器 不 冲突 )。 当 第 
一 条 指令 流出 时 ,占用 加 法 流水 线 。 第 二 条 指令 要 等 加 法 流水 线 变 成 空闲 后 ,才能 流出 。 
3. 源 寄存 器 冲突 
例如 : 
Vs Vit+V: 
Ve—ViXV, 
这 两 条 向 量 指 令 的 源 向 量 之 一 都 取 自 V。 由 于 两 者 的 首 元 素 下 标 可 能 不 同 , 向 量 长 度 
也 可 能 不 同 ,所 以 难以 由 Vi 同时 提供 两 条 指令 所 需要 的 源 向 量 。 这 两 条 向 量 指令 不 能 同 
时 执行 。 只 有 等 第 一 条 向 量 指令 执行 完 、 释 放 Vi 之 后 ,第 二 条 向 量 指令 才能 开始 执行 。 
4. 结果 寄存 器 冲突 
两 条 向 量 指令 使 用 了 相同 的 结果 向 量 寄存 器 。 
例如 : 
Vi Vit+V: 
VViXV, 
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这 两 条 指令 都 要 访问 目的 寄存 器 V,。 由 于 第 一 条 指令 在 先 ,所 以 它 先 占用 V, 直到 运 
算 完成 ,然后 再 流出 后 一 条 指令 。 

当前 一 条 指令 的 结果 寄存 器 是 后 一 条 指令 的 源 寄存 器 、 且 不 存在 任何 其 他 冲突 时 ， 
例如 : 

Vs-Vi+V: 
VeVsXV 

就 可 以 用 链接 技术 来 提高 性 能 。 向 量 流水 线 链接 (Pipeline Chaining) 是 指 具 有 先 写 后 读 相 
关 的 两 条 指令 ,在 不 出 现 功能 部 件 冲突 和 其 他 V; 冲突 的 情况 下 ,可 以 把 功能 部 件 链接 起 来 
进行 流水 处 理 , 以 达到 加 快 执行 的 目的 。 链 接 特 性 是 Cray-1 向 量 处 理 的 一 个 显著 特点 。 

由 于 同步 的 要 求 , 链 接 时 ,Cray-l 中 把 向 量 数 据 元 素 送 往 向 量 功能 部 件 以 及 把 结果 存 
和 向量 寄存 器 都 需要 一 拍 时间 , 从 存储 器 中 把 数据 送 入 访 存 功能 部 件 也 需要 一 拍 时 间 。 

链接 技术 实际 上 可 以 看 成 流水 线 的 定向 技术 在 向 量 处 理 机 中 的 应 用 。 当 前 一 个 向 量 功 
能 部 件 产生 第 一 个 结果 并 送 到 结果 向 量 寄 存 器 的 入 口 时 ,将 该 结果 立即 送 往 下 一 个 功能 部 
件 的 入 口 ,开始 后 续 的 向 量 处 理 操作 。 此 后 依次 得 到 的 中 间 结 果 都 按 此 处 理 。 这 样 ,前 面 功 
能 部 件 的 结果 元 素 一 产生 ,就 可 以 立即 被 后 面 的 功能 部 件 所 使 用 ,而 不 用 等 结果 向 量 全 部 产 
生 后 再 来 使 用 。 

下 面 举 例 说 明 Cray-1 中 的 流水 线 链接 。 

例 4.1 考虑 在 Cray-1 上 利用 链接 技术 执行 以 下 4 条 指令 。 

W+- 存 储 器 // 访 存 取向 量 : 7 拍 

WW+Y // 向 量 加 : 3 拍 

VVv<nh // 按 ee) 左 移 : 4 拍 

WA // 与 操作 : 2 拍 存储 器 

面 出 链接 示意 图 ,并 求 该 链接 流水 线 的 通 
过 时 间 。 如 果 向 量 长 度 为 64, 则 需要 多 少 拍 才 
能 得 到 全 部 结果 ? 

解 对 这 4 条 指令 进行 分 析 可 知 : 它们 既 
没有 部 件 冲 突 , 也 没有 寄存 器 冲突 , 相 邻 两 条 指 
令 之 间 都 存在 先 写 后 读 相 关 , 因 而 可 以 把 访 存 向 量 加 
流水 线 、 向 量 加 流水 线 、 向 量 移 位 流水 线 以 及 向 ”流水线 
量 逻 辑 运算 流水 线 链接 成 一 个 较 长 的 流水 线 ， 
如 图 4.4 所 示 。 

这 一 链接 操作 的 时 间 图 如 图 4. 5 所 示 。 存 
储 器 取 数 指令 是 在 时 刻 to 发 出 的 。 每 条 水 平 线 j 
表示 向 量 寄 存 器 Vs 中 一 个 结果 分 量 的 产生 过 | Va 
程 。 该 链接 流水 线 的 通过 时 间 为 证 

a 二 6b 十 c 十 d 十 e 十 f 十 g 十 有 十 i 十 j 十 k& 流水 线 | 一 一 一 

1 十 7 十 1 十 1 十 3 十 1 十 1 十 4 十 1 十 1 十 2 

全 站 
在 向 量 长 度 为 64 的 情况 下 ,得 到 所 有 结果 图 4.4 Cray-1 的 流水 线 链接 举例 
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共 需 要 23 十 64 一 87 拍 。 、 
hitb ta ts tot ts ty tiotn tt ttstiety st to ta ta ty3 to4 ts to ta tg ta9 t30 06102 章 
和 = 
次 人 
i -Vy 
-= 一 Ys 
本 -Vs4 
= AV 
人 Er 
5 2 
2 = 
a b cad e Ea: h 了 
a: 存储 字 到 * 读 功能 部 件 "的 传送 时 间 4b : 存储 字 经 过 “ 读 功 能 部 件 "的 通过 时 间 
<: 存储 字 从 “ 读 功 能 部 件 " 到 Vo 分 量 的 传送 时 间 qd: Vo 和 V1 中 操作 数 到 整数 加 功能 部 件 的 传送 时 间 
e: 整数 加 功能 部 件 的 通过 时 间 了/: 和 从 整数 加 功能 部 件 到 V, 分 量 的 传送 时 间 
8: 可 和 下 分 蝇 到 物 们 号 能 部 件 的 传送 时 间 h: 移 位 功能 部 件 的 通过 时 间 
i: 结果 从 移 位 功能 部 件 到 V: 分 量 的 传送 时 间 7: V3 和 V4 中 的 操作 数 分 量 到 逻辑 部 件 的 传送 时 间 
k: 逻辑 功能 部 件 的 通过 时 间 1: 最 后 结果 到 Vs 分 量 的 传送 时 间 
图 4.5 例 4.1 的 链接 时 间 图 
例 4.2 若 要 在 Cray-1 上 进行 向 量 运算 : D= 
4X(B+C) ,假设 向 量 长 度 N 三 64, 向量 元 素 为 浮 存储 器 


点 数 , 且 向 量 B.C 已 存放 在 Vs 和 V 中 。 夯 出 链 
接 示 意图 ,并 分 析 非 链接 执行 和 链接 执行 两 种 情况 
下 的 执行 时 间 。 

解 ” 用 以 下 三 条 向 量 完成 上 述 运 算 。 


(1) WA // 访 存 取向 量 A 
四 WWw+ 记 。 ”// 向 量 B 和 向 量 c 进 行 浮 点 加 1 一 
(3) WWXVW  // 浮 点 乘 ,结果 存 人 及 淫 3 Vi 
第 (1) ,第 (2) 条 向 量 指令 既 无 V, 冲突 ,也 无 功 上 
能 部 件 冲突 ,可 以 并 行 执行 。 第 (3) 条 指令 与 - 
第 (1) .第 (2) 条 指令 之 间 均 存在 且 只 存在 先 写 后 读 
相关 ,而 且 不 存在 功能 部 件 冲 突 , 因 而 可 以 将 第 (3) 
条 指令 与 第 (1)、 第 (2) 条 指令 链接 执行 ,如 图 4.6 | 
所 示 。 | Vs 
如 果 这 三 条 指令 全 部 用 串 行 方法 执行 , 则 执行 1 
时 间 为 尖 上 | 
[Qt+6 十 DD 十 N 一 1] 十 [Qi 十 6 十 DD 十 N 一 1] 乘 记 Me | 
十 [( 民 十 7 十 1) 十 N 一 1] 7 
二 3N 十 22( 拍 ) 
如 果 前 两 条 指令 并 行 执行 .然后 再 串 行 执行 图 4.6 例 4.2 的 链接 示意 图 
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第 (3) 条 指令 , 则 执行 时 间 为 
[G 十 6 十 1) 十 N 一 二 二 [LG 二 7 十 1) 十 N 一 二 = 2N 十 15( 拍 ) 

如 果 第 (1) ,第 (2) 条 向 量 指 令 并 行 执行 (“ 访 存 ”所 需 的 拍 数 与 浮 加 ”所 需 的 拍 数 正好 相 

同 ) ,并 与 第 (3) 条 指令 链接 执行 , 则 所 需 的 时 间 最 短 ,为 
[CI 十 6 十 1 十 [CG 填 7 十 下] 十 CN 一 了 = 三 太 十 16( 拍 ) 

进行 向 量 链接 时 ,除了 要 求 无 V; 冲突 和 无 功能 部 件 使 用 冲突 外 ,还 有 一 些 别 的 要 求 。 

(1) 只 有 在 前 一 条 指令 的 第 一 个 结果 元 素 送 入 结果 向 量 寄存 器 的 那 一 个 时 钟 周期 才 可 
以 进行 链接 。 如 果 错 过 这 个 时 刻 ,就 无 法 进行 链接 了 ,这 时 只 好 按 串 行 方式 执行 这 两 条 
指令 。 

(2) 当 一 条 向 量 指令 的 两 个 源 操作 数 分 别 来 自前 面 紧 邻 的 两 条 指令 的 结果 时 ,要 求 这 
两 条 指令 产生 运算 结果 的 时 间 必 须 相 等 , 即 要 求 有 关 功 能 部 件 的 通过 时 间 相 等 。 例 如 ,上 述 
例子 中 的 访 存 和 浮 加 功能 部 件 的 通过 时 间 都 是 6 拍 。 

(3) 要 进行 链接 执行 的 向 量 指令 的 向 量 长 度 必须 相等 ;否则 无 法 进行 链接 。 
4.3.3 分 段 开采 技术 

当 向 量 的 长 度 大 于 向 量 寄存 器 的 长 度 时 ,必须 把 长 向 量 分 成 长 度 固 定 的 段 ,然后 循环 分 
段 处 理 ,每 一 次 循环 只 处 理 一 个 向 量 段 。 这 种 技术 称 为 分 段 开采 技术 。 将 长 向 量 分 段 成 循 
环 处 理 是 由 系统 自动 完成 的 ,对 程序 员 是 透明 的 。 

例 4.3 设 A 为 数组 ,B 是 长 度 为 N 的 向 量 ,考虑 在 Cray-l 向 量 处 理 器 上 实现 以 下 的 
循环 操作 。 

Do 10 LN 
10 RARG)=5.0 * B(D+C 


当 N64 时 ,可 以 用 以 下 指令 序列 实现 上 述 循环 。 


S<-5.0 // 第 一 条 : 将 常数 5.0 装 人 标量 寄存 器 
SC // 第 二 条 : 将 常数 c 装 和 人 标量 寄存 器 
VEN // 第 三 条 :在 谍 寄存 器 中 设置 向 量 长 度 
WB // 第 四 条 :将 向 量 B 读 入 向 量 寄 存 器 
VS*W // 第 五 条 :计算 5.0 * B(x) 

WS+ // 第 六 条 : 5.0 * B(x) 和 CcC 相 加 

BV // 第 七 条 :将 结果 向 量 存 人 A 数组 


第 五 .第 六 条 指令 存在 先 写 后 读 相 关 , 并 且 不 存在 功能 部 件 冲突 ,所 以 可 以 链接 执行 。 
最 后 结果 存 人 数组 A 中 。 

当 N>64 时 ,就 需要 进行 分 段 开采 。 在 进入 循环 之 前 ,将 N 除 以 64, 所 得 到 的 商 就 是 
循环 次 数 , 而 余数 则 是 要 单独 处 理 的 元 素 的 个 数 。 在 进入 循环 前 , 先 对 余数 个 元 素 进行 计 
算 , 然 后 用 循环 的 方式 计算 数组 A 的 其 他 部 分 .每 次 循环 计算 64 个 元 素 ,而 循环 体 则 是 由 
上 述 第 四 一 第 七 条 向 量 指令 组 成 。 


4.3.4 采用 多 处 理 机 系统 
为 了 进一步 提高 系统 的 向 量 处 理性 能 .许多 新 型 向 量 处 理 机 系统 采用 了 多 处 理 机 系统 


向 量 处 理 机 


结构 。 例 如 ,在 Cray-l 的 基础 上 ,Cray 公司 在 20 世纪 80 年 代 推出 了 Cray-2 .Cray X-MP， 
20 世纪 90 年 代 推 出 了 Cray Y-MP、C90。 这 些 机 器 基本 上 保持 了 Cray-l 的 基本 结构 ,但 都 
已 经 发 展 成 为 多 处 理 机 系统 。Cray-2 包含 了 4 个 向 量 处 理 机 , 浮 点 运算 速度 最 高 可 达 
1800MFLOPS。Cray Y-MP、C90 最 多 可 包含 16 个 向 量 处 理 机 。 


4.4 向 量 处 理 机 的 性 能 评价 


衡量 向 量 处 理 机 性 能 的 主要 参数 有 : 向 量 指令 的 处 理 时 间 T,, ,向 量 长 度 为 无 穷 大 时 的 
向 量 处 理 机 的 最 大 性 能 R- , 半 性 能 向 量 长 度 ma ,向 量 长 度 临 界 值 w。。 


4.4.1 向 量 指令 的 处 理 时 间 Tn 


1. 一 条 向 量 指令 的 执行 时 间 T。 
在 向 量 处 理 机 上 ,执行 一 条 向 量 长 度 为 n 的 向 量 指令 所 需 的 时 间 工 ,可 表示 为 
= DT (4.1) 
其 中 ,7T, 为 向 量 处 理 部 件 流 水 线 的 建立 时 间 ,就 是 为 了 使 处 理 部 件 流水 线 能 开始 工作 ( 即 开 
始 流入 数据 ) 所 需要 的 准备 时 间 。T. 为 向 量 流水 线 的 通过 时 间 , 即 第 一 对 向 量 元 素 通 过 流 
水 线 并 产生 第 一 个 结果 所 花 的 时 间 ,T. 为 流水 线 的 时 钟 周期 时 间 。 
如 果 把 式 (4.1) 中 的 参数 都 折算 成 时 钟 周期 个 数 , 则 式 (4.1) 可 以 写 为 
T» 一 [* 十 e 十 (2 一 1)]T. (4. 2) 
其 中 ,* 为 工 , 所 对 应 的 时 钟 周期 数 ,e 是 工 . 所 对 应 的 时 钟 周期 数 。 
如 果 不 考 虑 T,, 并 令 Ton 二 e 一 1, 则 式 (4.2) 变 为 
Tu 一 (Tan t+ mT (4.3) 
其 中 ,Ton 为 从 一 条 向 量 指令 开始 执行 到 还 差 一 个 时 钟 周期 就 产生 第 一 个 结果 所 需 的 时 钟 
周期 数 ,可 称 为 该 向 量 指令 的 启动 时 间 。 此 后 , 便 是 每 个 时 钟 周期 流出 一 个 结果 ,共有 个 
结果 。 
2. 一 组 向 量 指令 的 总 执行 时 间 
下 面 考虑 一 组 向 量 指令 的 执行 时 间 。 这 个 执行 时 间 主 要 取决 于 三 个 因素 : 向 量 的 长 
度 向量 操作 之 间 是 否 存在 流水 功能 部 件 的 使 用 冲突 以 及 数据 的 相关 性 。 我 们 把 能 在 同一 
个 时 钟 周期 内 一 起 开始 执行 的 几 条 向 量 指令 称 为 一 个 编队 。 同 一 个 编队 中 的 向 量 指令 之 间 
一 定 不 存在 流水 功能 部 件 的 冲突 、V; 冲突 或 数据 的 相关 性 。 如 果 存 在 这 种 冲突 或 相关 , 那 
么 就 必须 将 它们 编 入 不 同 的 编队 。 
编队 后 ,这 个 向 量 指令 序列 总 的 执行 时 间 为 各 编队 的 执行 时 间 的 和 , 即 
Ta = 3 Wr (4.4) 
其 中 T8 表示 第 i 个 编队 的 执行 时 间 ,m 为 编队 的 个 数 。 当 一 个 编队 只 有 一 条 指令 时 ,其 执 
行 时 间 可 以 按 式 (4. 3) 直 接 求 出 。 但 当 一 个 编队 是 由 若干 条 指令 组 成 时 ,其 执行 时 间 就 应 该 


由 该 编队 中 各 指令 的 执行 时 间 的 最 大 值 来 确定 。 由 于 都 是 处 理 个 元 素 ,所 以 主要 的 区 别 
在 于 各 条 指令 的 Tssn 值 。 令 Tis 表示 第 i 编队 中 各 指令 的 启动 时 间 的 最 大 值 , 则 
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Tu 六 和 D3 [Te + njT. [2 Te + mn|T. = [Tn 二 mnjT. (4.5) 
i=1 i=1 


其 中 , Ten 二 >)TS。 是 该 组 指令 总 的 启动 时 间 ( 时 钟 周期 个 数 ) 。 
如 果 表 示 成 时 钟 周期 个 数 , 则 
Tu 二 Tsar 十 mn( 拍 ) (4.67 
后 面 主要 用 这 个 公式 来 计算 向 量 指令 序列 的 执行 时 间 。 
例 4.4 假设 每 种 向 量 功能 部 件 只 有 一 个 ,而 且 不 考虑 向 量 链接 ,那么 下 面 的 一 组 向 量 
指令 能 分 成 几 个 编队 ? 


Ny VLRx // 取 向 量 x 

MITSV V2,RO,V // 向 量 x 和 标量 BO) 相 乘 
IV VSRy // 取 向 量 y 

BRDDV V4,V2,V3 // 相 加 ,结果 保存 到 V4 中 
SV VARY // 存 结果 


解 第 一 条 指令 LV 为 第 一 个 编队 。MULTSYV 指令 因为 与 第 一 条 LV 指令 相关 ,所 以 
它们 不 能 编 在 同一 个 编队 中 。 但 MULTSYV 指令 和 第 二 条 LV 指令 之 间 既 不 存在 功能 部 件 
冲突 ,也 不 存在 数据 相关 , 故 可 以 把 它们 一 起 编 到 第 二 个 编队 中 。ADDY 指令 与 第 二 条 LV 
指令 数据 相关 ,SV 指令 又 与 ADDV 指令 数据 相关 ,所 以 把 ADDV 编 为 第 三 个 编队 ,把 SV 
指令 编 为 第 四 个 编队 , 即 


GD IV VLRx 

CO) MIITSV VAROV IVR 
G3) RDDV VAV2,V3 

(9) sSV VARY 


3. 分 段 开采 时 一 组 向 量 指令 的 总 执行 时 间 
当 向 量 长 度 n 大 于 向 量 寄 存 器 长 度 MVL 时 ,需要 分 段 开采 。 根 据 前 面 的 论述 可 知 ,这 
需要 引入 一 些 额外 的 处 理 操 作 。 假 设 这 些 操作 所 引入 的 额外 时 间 为 Tioww 个 时 钟 周期 ,并 假 


设 | WE | 一 ,余数 为 g。 此 外 ,仍旧 假设 共 及 个 编队 。 
对 于 最 后 一 次 循环 来 说 ,所 需要 的 时 间 为 
Th = Ta Tiwt WX 
而 其 他 每 一 次 循环 所 要 花费 的 时 间 为 
Te = Ten 十 Tom +m X MVL 
因而 总 的 执行 时 间 为 
Ta= Tow X p+ Th 
二 站 YX 十 ET 
= (p+ X (Tont Tiow) +m(MVLX p+ gq) 


一 | MVE |]x CTe + Ts) + mn (4.7) 
例 4.5 在 某 向 量 处 理 机 上 执行 DAXPY 的 向 量 指令 序列 , 即 完成 Y=aXX+Y。 其 中 
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X 和 是 向 量 , 最 初 保存 在 主 存 中 ,a 是 一 个 标量 ,已 存放 在 寄存 器 F0 中 。 它 们 的 向 量 指令 > 
如 下 。 章 
Ny VLRx // 取 向 量 X 
MITEV V2,FOVL // 向 量 X 和 标量 (E0) 相 乘 
JI V3Ry // 取 向 量 Y 
RDDV V4V2 VB3 // 完 成 于 axXXtY 
SV VARY // 存 结果 


假设 向 量 寄存 器 的 长 度 MVL 二 64, Ti 一 15, 各 功能 部 件 的 启动 时 间 如 下 。 

(1) 取 数 和 存 数 部 件 为 12 个 时 钟 周期 ; 

(2) 乘法 部 件 为 7 个 时 钟 周期 ; 

(3) 加 法 部 件 为 6 个 时 钟 周 期 。 

分 别 对 于 不 采用 向 量 链接 技术 和 采用 链接 技术 的 两 种 情况 , 求 完成 上 述 向 量 操 作 的 总 
执行 时 间 。 

解 ” 当 不 采用 向 量 链接 技术 时 ,可 把 上 述 5 条 向 量 指令 分 成 以 下 4 个 编队 。 


DI VLRx 

人 2) MUITEV VF IWV3Ry 
(3) RDDV VAV2V3 

(4) SV V4,RY 


Ts 一 12 十 12 十 6 十 12， m= 二 4 
根据 式 (4.7) 可 知 ,对 个 向 量 元 素 进行 DAXPY 表达 式 计算 所 需 的 时 钟 周期 个 数 为 


T= vi | X (Te Tao) + mn 


=| 攻 |XQ5+12 十 12 十 6 十 12) 十 4 


=| 苗 |X57 二 4 

如 果 采 用 向 量 链 接 技术 ,那么 上 述 4 条 向 量 指令 的 编队 结果 如 下 (mm 一 3) 。 

(1) IV VI,Rx MILTEV V2,F0,V1 

(2) IV V3,Ry ADDV V4,V2,V3 

(3) SV V4,Ry 
其 中 前 两 个 编队 中 各 自 的 两 条 向 量 指令 都 可 以 链接 执行 。 根 据 链 接 的 含义 可 知 ,第 一 编队 
的 启动 时 间 为 12 十 7 二 19 个 时 钟 周期 ;第 二 个 编队 的 启动 时 间 为 12 十 6 二 18 个 时 钟 周期 ;第 
三 个 编队 的 启动 时 间 为 12 个 时 钟 周期 。 所 以 采用 链接 技术 后 ,依据 式 (4.7) ,对 个 向 量 元 
素 进 行 DAXPY 表达 式 计 算 所 需 的 时 钟 周期 总 数 为 


n 
= [uv | X (CTioo 十 Toan) + mn 


=| 站 |xa5+19+18 上 +12) 十 3n 


一 | 商 |x64+3r 
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4.4.2 最 大 性 能 Rw 和 半 性 能 向 量 长 度 1 


Rs 表示 当 向 量 长 度 为 无 穷 大 时 ,向 量 处 理 机 的 最 大 性 能 ,也 称 为 峰值 性 能 ,单位 是 
MFLOPS, 


R lim 向 量 指令 序列 中 浮 点 运算 次 数 x 时 钟 频率 
” me= ”向 量 指令 序列 执行 所 需 的 时 钟 周期 数 
对 于 上 述 例 题 4. 5 向 量 指令 序列 中 的 操作 而 言 ,只 有 MULTFV V2,F0,V1 和 ADDV 
V4,V2,V3 两 条 浮 点 操作 向 量 指令 。 假 设 该 向 量 处 理 机 的 时 钟 频率 为 200MHz, 那 么 其 最 
大 性 能 就 为 


(4.8) 


RR 二 jim 向 量 指令 序列 中 浮 点 运算 次 数 X 时 钟 频率 
"下 同 量 指令 序列 拆 行 所 需 的 时 钟 周 期 数 


一 lim_ 2X?X200 
| | 区 64 十 3n 
lim 2* "X200 
neo 4n 
= 100MFLOPS 
半 性 能 向 量 长 度 az 是 指向 量 处 理 机 的 性 能 为 其 最 大 性 能 R。 的 一 半 时 所 需 的 向 量 长 
度 。 它 是 评价 向 量 流 水 线 的 建立 时 间 对 性 能 影响 的 重要 参数 。 若 向 量 长 度 二 mo, 则 表明 
整个 向 量 流水 处 理 时 间 中 只 有 一 半 是 在 做 有 效 操作 ,而 另 一 半 则 是 浪费 了 。 
通常 都 希望 向 量 处 理 机 有 较 小 的 nny,。 实 际 测试 表明 ,Cray-1 的 mm 为 10 一 20,Cyber 
205 的 za? 为 100。 这 表明 Cray-l 的 流水 线 建 立时 间 比 Cyber 205 的 要 小 很 多 。 
例 4.6 对 于 例 4.5, 假 设 时 钟 频率 为 200MHz', 求 半 性 能 向 量 长 度 mp 。 
对 于 上 面 的 例子 ,由 于 该 向 量 处 理 机 的 最 大 性 能 R- 王 100MFLOPS, 所 以 根据 半 性 能 
向 量 长 度 的 定义 有 


2 X ny X 200 


n 三 2 
[党 | X 64 + 3nys 
假设 ny 三 64, 则 
64 十 3n1s 2 X mys X 200 Bn1s 
50 
由 此 可 得 
5nys = 64, ny: = 12.8 
取 121/2 一 13。 


4.4.3 向 量 长 度 临 界 值 ns 


ns 是 指向 量 流水 方式 的 处 理 速度 优 于 标量 串 行 方式 的 处 理 速度 时 所 需 的 向 量 长 度 的 
最 小 值 。 该 参数 既 衡 量 建立 时 间 ,也 衡量 标量 .向量 处 理 速度 比 对 向 量 处 理 机 性 能 的 影响 。 
对 于 上 述 DAXPY 的 例子 ,假设 所 64, 建 立 DAXPY 循环 的 开销 为 10 个 时 钟 周期 。 
那么 在 标量 串 行 方式 下 ,执行 一 次 循环 所 需 的 时 钟 周期 数 为 
T = 一 (10 十 12 十 12 十 7 十 6 十 12) Xn, 一 59n。 


其 中 的 12,7,6,12 分 别 为 取 数 、 乘 ,加 、 存 数 等 流水 线 的 开销 。 
根据 式 (4.7) 可 知 ,在 向 量 方式 下 ,计算 DAXPY 循环 所 需要 的 时 钟 周 期 数 为 


T, = 64+ 3n。 


根据 向 量 长 度 临界 值 的 定义 ,有 


所 以 ms 二 器 |-: 本 


4 935 


T,=T, 
64 十 3n, 一 59ns 


4.5 向 量 处 理 机 实例 


具有 代表 性 的 向 量 处 理 机 


表 4.1 列 出 了 美国 和 日 本 生产 的 一 些 向 量 处 理 机 的 简要 信息 。 
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表 4.1 美国 和 日 本 生产 的 向 量 处 理 机 
系统 型 号 推出 时 间 | 最 大 配置 ,时 钟 周期 ,操作 系统 /编译 系统 特色 和 要 点 

Sr 有 10 条 流水 线 的 单 处 理 机 ,12. 5ns, COS/ | 第 一 台 基 于 ECL 的 超 
Diens 1976 年 | cF7 2.1 级 计算 机 

本 - 256M 字 存 储 器 的 4 台 处 理 机 ,4. lns,COS | 16K 字 的 本 地 存储 器 ， 
5 1985 年 | 或 UNIX/CF77 3.0 移植 了 UNIX V 
、 16M 字 存 储 器 的 4 台 处 理 机 ,128M 字 SSD, | 使 用 共享 寄存 器 组 用 
Cray WP A 1983 年 | 8. 5ns,COS/CF77 5.0 于 IPC 
Cray Y-MP 832 1988 年 | 128M 字 存 储 器 的 8 台 处 理 机 ,6ns,CF77 5.0 | X-MP 的 改进 型 
a gs 每 台 处 理 机 2 条 向 量 流水 线 ,16 台 处 理 机 ， 人 
Cray Y-MP C-90 1991 年 4. 2ns,UNICOS/CF77 5.0 最 大 的 Cray 机 器 
ee .| 有 4 条 流水 线 的 单 处 理 机 , 20ns, 虚拟 
CDC Cyber 205 1982 年 OS/FTN200 存储 器 -存储 器 系统 结构 
ETA 10E 1985 年 | 单 处 理 机 ,10. 5ns, ETAV/FTN 200 Cyber 205 的 后 继 型 号 

Ee 。 | 每 台 处 理 机 4 组 流水 线 ,4 台 处 理 机 ,2. 9ns， 
NEC SX-X/44 1991 年 F77SX 
Mg - |5 条 流水 线 的 单 处 理 机 和 双 标 量 处 理 机 , | 使 用 可 重 构 微 向 量 寄存 
Fuiitsu VP2600/10 | 1991 年 | 3. 2ns,MSP. EX/F77 EX/VP 器 和 屏 项 

”| 512M 字 存 储 器 .18 个 流水 线 功能 部 件 的 单 | 64 个 MO 通道 ,最 大 传 
itmobi den 1988 年 | 处 理 机 ,4ns*FORT 77/HAP V23-OC 输 率 为 288MB/s 


人 


4.5.2 Cray Y-MP 和 C-90 


1. Cray Y-MP 816 

Cray Y-MP 816 是 于 1991 年 问世 的 ,其 系统 结构 如 图 4.7 所 示 。 系 统 可 以 配置 1 台 、 
2 台 、4 台 或 8 台 处 理 机 。Y-MP 的 8 个 CPU 共享 中 央 存 储 器 .1/O 子 系统 、 处 理 机 通信 子 
系统 和 实时 时 钟 。CPU 的 时 钟 周期 为 6ns。 
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中 央 存 储 器 分 成 256 个 交叉 访问 的 存储 体 。 通 过 每 个 CPU 对 4 个 存储 器 端口 的 交叉 
访问 可 以 实现 对 存储 器 的 重 倒 存 取 。 


广 一 | 处 理 机 之 间 通 信 


上 一 实 时钟 (64 位 ) | CPU1 | 
1 1 
1 1 
| vy 寄存 器 “上 =| ”向 量 功 能 部 件 | 
一 | cru2 -一 | 站 | 8 个 寄存 器 加 / 城 、 移 位 、 | 
| 六 | 每 个 v 寄存 器 屏蔽 寄存 器 逻辑 (64 位 运算 ) | 
| | 有 64 个 64 位 (64 位 ) | 
让 | 分 量 寄存 器 二 向 量 部 分 | 
器 1 
on sa se @ 位 ) “| 浮 点 功能 部 件 | 
es 
T 寄 存 器 六 一 | 近似 (64 位 运 

1 (8 个 64 位 [=| S 寄 存 器 | 
Fe cpu4 | 一 一 | | 寄存 器 ) 一 = (8 个 64 位 标量 部 分 | 
一 | 把 能 部 人 
中 | 1 和 位、 | 
存 | 上 | B 寄 存 器 逻辑 (32 位 运算 ) | 

| CpU5 一 一 | 俩 | (8 个 32 位 | 人 寄存 器 | 
器 | 寄存 器 ) “| 一 ”| Cs | 
一 一 ) 一 一 一 | 地 址 功能 部 件 | 
| 加 / 减 、 地 址 部 分 | 
~ CPU6 一 一 | | (32 位 运算 ) | 
1 1 
1 「 指令 缓冲 区 一 一 ! 
[512 个 16 位 | i | 

1 今 | 

FF cpuy -| | 指令 区 ) 性 能 监控 器 | 
| 可 编程 时 钟 (32 位 ) 控制 部 分 1 
| 厂 去 状态 寄存 器 | 
| CPU8 一 一 | 1 寄存 器 IO 控制 | 


图 4.7 Cray Y-MP 816 系统 结构 


中 央 存储 器 的 容量 最 大 可 达 1GB。 固 态 存储 器 的 容量 最 大 可 达 4GB。4 个 存储 器 访问 
端口 允许 每 个 CPU 同时 执行 两 个 标量 和 向 量 取 操作 ,一 个 存储 操作 和 一 个 独立 的 1/O 操 
作 。 这 些 并 行 的 存储 器 访问 也 采用 流水 线 方式 ,使 得 向 量 读 和 向 量 写 可 以 同时 进行 。 系 统 
内 部 有 分 解 冲突 的 硬件 ,能 把 存储 器 冲突 引起 的 延迟 减少 到 最 小 。 

CPU 的 计算 系统 由 14 个 功能 部 件 组 成 ,分 为 向 量 、 标 量 、 地 址 和 控制 4 个子 系统 ,如 
图 4.7 所 示 。 向 量 和 标量 指令 可 以 并 行 地 执行 。 所 有 算术 运算 都 是 “寄存 器 -寄存 器 ”类 型 。 
向 量 指令 可 以 使 用 14 个 功能 部 件 中 的 8 个 。 

系统 使 用 了 大 量 的 地 址 寄存 器 、 标 量 寄存 器 、 向 量 寄 存 器 、 中 间 寄 存 器 和 临时 寄存 器 。 
通过 对 寄存 器 及 多 体 存 储 器 和 算术 /逻辑 流水 线 的 使 用 ,可 以 实现 功能 流水 线 的 灵活 链接 。 
浮 点 和 整数 算术 运算 都 是 64 位 。 大 型 指令 高 速 缓 存 可 同时 存放 512 条 16 位 的 指令 。 

主机 中 的 处 理 机 之 间 的 通信 系统 包括 用 于 快速 同步 目的 的 共享 寄存 器 群 ,每 个 群 由 共 
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享 地 址 寄存 器 .共享 标量 寄存 器 和 信号 灯 寄 存 器 组 成 。CPU 之 间 的 向 量 数 据 通信 是 通过 共 
享 存储 器 实现 的 。 

I/O 子 系统 支持 三 类 通道 ,传输 速率 分 别 为 6MB/s,100MB/s 和 1GB/s。 

2. C-90 

C-90 对 Y-MP 系列 在 技术 上 和 规模 上 做 了 进一步 改进 。 它 由 16 个 类 似 Y-MP 的 
CPU 组 成 。16 台 处 理 机 共享 主 存储 器 的 容量 高 达 256M 字 (2GB)。SSD 存储 器 的 容量 最 
多 达 16GB, 可 选 作 第 二 级 主 存储 器 。 两 条 向 量 流水 线 和 两 个 功能 部 件 可 以 并 行 操作 ,每 个 
时 钟 周期 能 产生 4 个 向 量 计算 结果 。 这 意味 着 每 台 处 理 机 有 4 路 并 行 性 ,因此 16 台 处 理 机 
每 个 时 钟 周期 最 多 可 以 产生 64 个 向 量 计算 结果 。 

C-90 运行 UNICON 操作 系统 ,提供 向 量化 的 FORTRAN 77 和 C 编译 器 。64 路 并 行 
性 和 4. 2ns 时 钟 周期 配合 ,可 使 系统 的 峰值 性 能 达到 16GFLOPS, 系 统 最 大 1/O 吞吐 率 为 
13.6MB/s。 


4.5.3 NEC SX-X44 


NEC 在 1991 年 推出 NEC SX-X44 时 宣称 ,这 种 机 器 是 当时 最 快 的 向 量 超 级 计算 机 , 峰 
值 速度 可 达到 22GFLOPS。 达 到 这 一 性 能 指标 的 主要 措施 之 一 是 使 用 了 基于 VLSI 和 高 密 
度 封装 技术 的 2. 9ns 的 时 钟 。 它 的 系统 结构 如 图 4. 8 所 示 。 


16GB 
屏蔽 呆 
XMU 寄存 器 王 
存储 扩展 部 件 
向 量 部 件 
组 0 APo 
IOP(4 台 ) Le 
IO 处 理 机 二 组 1 AP| 运 
MMU 向 量 下 
寄存 器 | 理 
数据 | 组 2 HAP 机 
中 央 处 理 机 
存储 器 
CPM 二 和 AP， 
DCP(2 台 ) 
Dy . 
四 256M 字 2GB | Es 标量 流水 线 
标量 部 件 


图 4.8 NEC SX-X44 向 量 处 理 机 系统 结构 


4 台 运 算 处 理 机 通过 共享 寄存 器 或 通过 2GB 的 共享 存储 器 进行 通信 。 每 台 处 理 机 有 4 
组 向 量 流水 线 , 每 组 包括 2 条 加 法 / 移 位 流水 线 和 2 条 乘法 /逻辑 流水 线 。 因 此 ,类 似 C-90， 
4 台 处 理 机 可 达到 64 路 并 行 。 

除了 向 量 部 件 外 ,还 有 高 速 标量 部 件 , 它 采用 了 具有 128 个 标量 寄存 器 的 RISC 系统 结 
构 , 通 过 把 指令 重新 排序 来 开发 较 高 的 并 行 性 。 主 存储 器 为 1024 路 的 交叉 访问 存储 器 。 其 
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扩展 存储 器 的 最 大 容量 高 达 16GB, 最 大 传输 率 为 2. 75GB/s。 
该 系统 最 多 可 以 配置 4 台 1/O 处 理 机 ,每 台 1/O 处 理 机 的 数据 传输 率 为 1GB/s。 它 最 
多 可 以 提供 256 个 通道 ,用 于 高 速 网 络 、 图 形 和 外 围 操作 ,支持 100MB/s 的 通道 传输 。 


习 题 4 


4.1 解释 下 列 名 词 。 

横向 处 理 方式 纵向 处 理 方式 ”纵横 处 理 方式 向 量 流水 线 链接 

V; 冲突 功能 部 件 冲 突 分 段 开采 技术 ” 半 性 能 向 量 长 度 

向 量 长 度 临界 值 

4.2 简 述 三 种 向 量 处 理 方式 ,它们 对 向 量 处 理 机 的 结构 的 要 求 有 何不 同 ? 

4.3 可 采用 哪些 方法 来 提高 向 量 处 理 机 的 性 能 ? 

4.4 采用 链接 技术 时 ,向 量 指令 能 够 链接 执行 必须 满足 哪些 条 件 ? 

4.5 在 Cray-l 机 器 上 ,按照 链接 方式 执行 下 述 4 条 向 量 指令 (括号 中 给 出 了 相应 功能 
部 件 的 执行 时 间 ) ,如果 向 量 寄存 器 和 功能 部 件 之 间 的 数据 传送 需要 一 拍 , 试 求 此 链接 流水 
线 的 通过 时 间 是 多 少 拍 ”如 果 向 量 长 度 为 64, 则 需 多 少 拍 才能 得 到 全 部 结果 ? 


Ww 一 存储 器 // 从 存储 器 中 取 数 : 7 拍 
Wt // 向 量 加 : 3 拍 
VV<n // 按 B®@) 左 移 : 4 拍 
WA // 向 量 逻辑 乘 : 2 拍 


4.6 在 Cray-l 上 ,按照 链接 方式 执行 下 述 5 条 向 量 指令 (括号 中 给 出 了 相应 功能 部 件 
的 时 间 ) ,如果 向 量 寄存 器 和 功能 部 件 之 间 数 据 传输 需要 一 拍 , 试 求 此 链接 流水 线 的 通过 时 
间 是 多 少 拍 ? 如 果 向 量 长 度 为 64, 则 需要 多 少 拍 才能 得 到 全 部 结果 。 


Ww 一 存储 器 // 从 存储 器 中 取 数 : 7 拍 

Wt // 向 量 加 : 3 拍 

VV<B // 按 (93) 左 移 : 5 拍 

WA // 向 量 逻辑 乘 : 2 拍 

存储 器 < 一 天 // 向 存储 器 中 存 数 : 7 拍 

4.7 某 向 量 处 理 机 有 16 个 向 量 寄存 器 ,其 中 Vo 一 Vs 中 分 别 放 有 向 量 A、B、C、D、E、 


下 ,向量 长 度 均 为 8, 向 量 各 元 素 均 为 浮 点 数 ;处 理 部 件 采 用 两 条 单 功能 流水 线 , 加 法 功能 部 件 
时 间 为 2 拍 , 乘 法 功能 部 件 时 间 为 3 拍 。 采 用 类 似 Cray-1 的 链接 技术 , 先 计 算 (4 十 B) XC, 在 
流水 线 不 停 流 的 情况 下 ,接着 计算 (D 十 E) X 下 。 

(1) 求 此 链接 流水 线 的 通过 时 间 ( 设 寄存 器 入 、 出 各 需 一 拍 )。 

(2) 假如 每 拍 时 间 为 50ns, 完 成 这 些 计算 并 把 结果 存 人 相应 的 寄存 器 ,此 处 理 部 件 的 实 
际 吞 吐 率 为 多 少 MFLOPS? 

4.8 在 一 台 向 量 处 理 机 上 实现 4 一 BXS 计算 ,其 中 A 和 B 是 长 度 为 N= 二 200 的 向 量 ， 
S 是 一 个 标量 。 向 量 寄存 器 长 度 MVL 一 64, 各 功能 部 件 的 启动 时 间 为 : 取 数 和 存 数 部 件 为 
12 个 时 钟 周期 乘法 部 件 为 7 个 时 钟 周期 .执行 标量 代码 的 开销 Tioo, 二 15 个 时 钟 周期 ,对 一 


向 量 处 理 机 


个 向 量 元 素 执行 一 次 操作 的 时 间 Ts 一 一 个 时 钟 周期 。 求 计算 4 的 总 执行 时 间 。 Ww 
4.9 向 量 处 理 机 Cray Y-MP/8 的 机 器 周期 时 间 为 6ns, 一 个 周期 可 以 完成 一 次 加 和 一 训 


次 乘法 运算 。 另 外 ,8 台 处 理 机 在 最 好 的 情况 下 可 以 同时 运算 而 互 不 干扰 。 计 算 Cray 
Y-MP/8 的 峰值 性 能 。 

4.10 ”A.、B 两 个 向 量 存 放 于 存储 器 中 ,其 向 量 长 度 为 64。 设 流水 加 法 器 有 4 级 ,流水 
线 时 钟 周 期 为 10ns, 读 出 A、B 向 量 第 一 对 元 素 到 流水 线 始 端 所 需 的 时 钟 周 期 数 为 2, 求 执 
行 向 量 加 法 指令 ADDV 所 需 的 时 间 。 


第 5 齐 
指令 级 并 行 及 其 开发 一 一 硬件 方法 


内 容 提 要 

(1) 指令 级 并 行 的 概念 ; 
(2) 相关 与 指令 级 并 行 ; 
(3) 指令 的 动态 调度 ; 
(4) 动态 分 支 预测 技术 ; 
(5) 多 指令 流出 技术 。 


指令 级 并 行 (Instruction-Level Parallelism,ILP) 是 指 指令 之 间 存 在 的 一 种 并 行 性 , 利 
用 它 , 计 算 机 可 以 并 行 执行 两 条 或 两 条 以 上 的 指令 。 开 发 ILP 的 途径 有 两 种 ,一 种 是 资源 
重复 ,重复 设置 多 个 处 理 部 件 , 让 它们 同时 执行 相 邻 或 相近 的 多 条 指令 ; 另 一 种 是 采用 流水 
线 技术 ,使 指令 重 释 并行 执 行 。 开 发 指令 级 并 行 性 是 提高 计算 机 性 能 的 一 种 重要 方法 ,在 近 
十 多 年 来 推出 的 计算 机 中 ,几乎 都 采用 了 这 种 技术 。 

本 章 及 第 6 章 研 究 如 何 利 用 各 种 技术 来 开发 更 多 的 指令 级 并 行 。 本 章 着 重 讨论 硬件 的 
方法 ,而 第 6 章 则 介绍 软件 的 方法 。 


5.1 指令 级 并 行 的 概念 


开发 ILP 的 方法 可 以 分 为 两 大 类 : 主要 基于 硬件 的 动态 开发 方法 以 及 基于 软件 的 静态 
开发 方法 。 在 实际 应 用 中 ,这 种 区 分 不 是 绝对 的 ,有 些 思想 是 两 者 都 可 以 采用 。 特 别 是 ,为 
了 能 充分 开发 程序 中 潜在 的 指令 级 并 行 , 应 该 把 硬件 技术 与 软件 技术 相 结合 ,把 动态 方法 与 
静态 方法 相 结合 。 

流水 线 处 理 机 的 实际 CPI 等 于 理想 流水 线 的 CPI 加 上 各 类 停顿 的 时 钟 周期 数 。 

CPIwxk 鳃 二 CP 十 停顿 和 jyw 突 十 停顿 &w 突 十 停顿 此 yw 突 

其 中 ,理想 CPI 是 衡量 流水 线 最 高 性 能 的 一 个 指标 。 通 过 减少 该 式 右边 的 各 项 ,就 能 减少 
总 的 CPI, 从 而 提高 IPC。IPC 是 Instructions Per Cycle 的 缩写 ,其 含义 是 每 个 时 钟 周 期 完 
成 的 指令 条 数 。 它 是 CPI 的 倒数 。 

如 果 一 串 连续 的 代码 除了 入 口 和 出 口 以 外 ,没有 其 他 的 分 支 指令 和 转 入 点 , 则 称 之 为 一 
个 基本 程序 块 (Basic Block) 。 由 于 程序 中 往往 每 隔 4 一 7 条 指令 就 会 有 一 个 分 支 , 而 且 指 令 
之 间 还 可 能 存在 相关 ,因此 在 基本 程序 块 中 能 开发 出 的 并 行 性 是 很 有 限 的 ,很 可 能 比 基 本 块 
的 平均 大 小 要 小 得 多 。 为 了 明显 地 提高 性 能 ,必须 跨越 多 个 基本 块 开 发 ILP。 
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最 简单 和 最 常用 的 增加 指令 之 间 的 并 行 性 的 方法 ,是 开发 循环 的 不 同 迭 代 之 间 存 在 的 
并 行 性 。 这 种 并 行 性 称 为 循环 级 并 行 性 (Loop-Level Parallelism) 。 例 如 ,考虑 下 述 语句 : 


for (i=1; i<=500; i=i+1) 
a[lil=a[il+s; 

这 里 ,在 每 一 次 循环 的 内 部 ,都 没有 任何 的 并 行 性 可 言 ,但 每 一 次 循环 都 可 以 与 其 他 的 
循环 重合 并 行 执行 。 第 6 章 将 讨论 如 何 把 这 种 循环 级 并 行 性 转换 为 ILP。 

另 一 种 开发 循环 级 并 行 性 的 重要 方法 是 采用 向 量 指令 和 向 量 数据 表示 。 第 4 章 已 经 对 
向 量 处 理 机 做 了 比较 详细 的 讨论 。 虽然 向 量 处 理 思想 的 出 现 要 早 于 许多 后 面 将 介绍 的 开发 
ILP 的 方法 ,但 目前 开发 ILP 的 处 理 机 在 通用 应 用 领域 占 统治 地 位 ,几乎 是 完全 替代 了 向 量 
处 理 机 。 当 然 , 向 量 处 理 机 在 某 些 特定 的 应 用 领域 还 有 广泛 的 应 用 ,例如 图 形 ,数字 信号 处 
理 , 多 媒体 应 用 等 。 


5.2 相关 与 指令 级 并 行 


在 第 3 章 中 讲 过 ,确定 程序 中 指令 之 间 存 在 什么 样 的 相关 ,对 于 确定 程序 中 有 多 少 并 行 
性 以 及 如 何 开 发 这 些 并 行 性 有 重要 的 意义 。 如 果 两 条 指令 相关 ,它们 就 不 能 并 行 执行 ,或 只 
能 部 分 重合 执行 。 相 关 有 三 种 类 型 : 数据 相关 、 名 相关 、 控 制 相关 。 

流水 线 冲 突 (hazard) 是 指 对 于 具体 的 流水 线 来 说 ,由 于 相关 的 存在 ,使 得 指令 流 中 的 下 
一 条 指令 不 能 在 指定 的 时 钟 周期 执行 。 流 水 线 冲突 有 三 种 类 型 : 结构 冲突 ,数据 冲突 、 控 制 
冲突 。 结 构 冲 突 是 因 硬 件 资源 冲突 造成 的 ,数据 冲突 是 由 数据 相关 和 名 相关 造成 的 ,控制 冲 
突 是 由 控制 相关 造成 的 。 

相关 是 程序 固有 的 一 种 属性 , 它 反 映 了 程序 中 指令 之 间 的 相互 依赖 关系 。 而 具体 的 一 
次 相关 是 否 会 导致 实际 冲突 的 发 生 以 及 该 冲突 会 带 来 多 长 的 停顿 , 则 是 流水 线 的 属性 。 

数据 相关 限制 了 所 能 开发 的 ILP, 本 章 论 述 的 主要 内 容 之 一 就 是 如 何 克 服 这 些 限 制 。 
可 以 从 两 个 方面 来 解决 相关 问题 : 

(1) 保持 相关 ,但 避免 发 生 冲 突 。 

(2) 进行 代码 变换 ,消除 相关 。 

指令 调度 就 是 一 种 用 来 避免 冲突 的 主要 方法 , 它 并 不 改变 相关 。 第 3 章 已 经 介绍 了 一 
些 依靠 编译 器 静态 地 进行 指令 调度 的 方法 ,本 章 将 论述 动态 调度 代码 的 硬件 方法 。 我 们 还 
将 看 到 ,有 些 类 型 的 相关 是 可 以 消除 的 。 

由 于 相关 的 存在 ,必须 保持 所 谓 的 程序 顺序 。 程 序 顺 序 (Program Order) 是 指 : 由 原来 
程序 确定 的 在 完全 串 行 方式 下 指令 的 执行 顺序 。 但 是 ,并 不 需要 在 所 有 存在 相关 的 地 方 都 
保持 程序 顺序 。 后 面 要 介绍 的 各 种 软 硬 件 技术 的 目标 是 尽 可 能 地 开发 并 行 性 ,只 有 在 可 能 
会 导致 错误 的 情况 下 . 才 保 持 程 序 顺序 。 

对 于 提高 性 能 来 说 ,控制 相关 本 身 并 不 是 一 个 主要 的 限制 。 当 存在 控制 相关 时 ,如果 不 
遵守 控制 相关 的 依赖 关系 ,执行 本 来 不 该 执行 的 指令 对 程序 的 正确 性 没有 影响 ,那么 就 完全 
可 以 这 么 做 (如 果 有 好 处 的 话 ) ,所 以 控制 相关 并 不 是 一 个 必须 严格 保持 的 关键 属性 。 为 了 
保证 程序 执行 的 正确 性 ,必须 保持 的 最 关键 的 两 个 属性 是 : 数据 流 和 异常 行为 。 
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保持 异常 行为 (Exception Behavoir) 是 指 : 无 论 怎么 改变 指令 的 执行 顺序 ,都 不 能 改变 
程序 中 异常 的 发 生 情 况 。 即 原来 程序 中 是 怎么 发 生 的 ,改变 执行 顺序 后 应 该 还 是 那样 发 生 。 
这 个 条 件 经 常 被 弱化 为 : 指令 执行 顺序 的 改变 不 能 导致 程序 中 发 生 新 的 异常 。 

数据 流 (Data Flow) 是 指数 据 值 从 其 产生 者 指令 到 其 消费 者 指令 的 实际 流动 。 分 支 指 
令 使 得 数据 流 具 有 动态 性 ,因为 一 条 指令 有 可 能 数据 相关 于 多 条 先前 的 指令 。 分 支 指令 的 
执行 结果 决定 了 哪 条 指令 真正 是 所 需 数据 的 产生 者 。 

有 时 ,不 遵守 控制 相关 既 不 影响 异常 行为 ,也 不 改变 数据 流 。 这 时 就 可 以 大 胆 地 进行 指 
令 调度 ,把 失败 分 支 中 的 指令 调度 到 分 支 指令 前 。 例 如 ,考虑 下 面 这 个 例子 : 


DRDDU Rl,R2,R3 
BEQZ R12,Skipnext 
DSUBU R4,R5,R6 
DRDDU RS5,R4,R9 
Skipnext: OR RI,R8,R9 
假设 我 们 知道 R4 在 Skipnext 之 后 不 再 被 使 用 ,而 且 DSUBU 不 会 产生 异常 .那么 就 可 以 把 
DSUBU 移 到 分 支 指令 之 前 。 这 是 因为 这 个 移动 不 会 改变 数据 流 。 如 果 分 支 成 功 ,尽管 按 原 程 
序 DSUBU 指令 是 不 该 执行 的 ,但 现在 执行 了 也 没关系 ,因为 它 不 会 影响 程序 的 执行 结果 。 
后 面 将 讨论 的 前 瞻 执 行 不 仅 能 解决 异常 问题 ,而 且 能 够 在 保持 数据 流 的 情况 下 ,减少 控 
制 相关 对 开发 ILP 的 影响 。 


5.3 指令 的 动态 调度 


静态 调度 的 流水 线 依靠 编译 器 对 代码 进行 静态 调度 ,以 减少 相关 和 冲突 。 之 所 以 称 为 
静态 调度 (Static Scheduling) ,是 因为 它 不 是 在 程序 执行 的 过 程 中 ,而 是 在 编译 期 间 进行 代 
码 调度 和 优化 的 。 静 态 调度 通过 把 相关 的 指令 拉 开 “距离 ”来 减少 可 能 产生 的 停顿 。 

第 3 章 中 论述 的 流水 线 属于 静态 调度 的 流水 线 。 在 这 样 的 流水 线 中 , 当 取 出 的 指令 与 
已 经 在 流水 线 中 执行 的 指令 不 存在 数据 相关 ,或 者 虽 存 在 数据 相关 ,但 可 以 通过 定向 机 制 将 
相关 隐藏 时 ,就 可 以 流出 这 条 指令 。 如 果 数 据 相 关 不 能 被 隐藏 ,冲突 检测 硬件 就 会 从 使 用 该 
数据 的 指令 开始 ,使 流水 线 停 顿 (stall) ,不 再 取 指令 和 流出 指令 。 

与 静态 调度 不 同 ,动态 调度 (Dynamic Scheduling) 是 在 程序 的 执行 过 程 中 ,依靠 专门 硬 
件 对 代码 进行 调度 。 这 是 一 种 很 重要 的 技术 ,许多 现代 的 处 理 器 都 采用 了 这 种 技术 。 动 态 
调度 能 在 保持 数据 流 和 异常 行为 的 情况 下 .通过 硬件 对 指令 执行 顺序 进行 重新 安排 ,减少 数 
据 相 关 导 致 的 停顿 。 动 态 调度 有 许多 优点 : 能 够 处 理 一 些 编译 时 情况 不 明 的 相关 (比如 
涉及 存储 器 访问 的 相关 ) ,并 简化 了 编译 器 ; 四 能 够 使 本 来 是 面向 某 一 流水 线 优化 编译 的 代 
码 在 其 他 动态 调度 的 流水 线 上 也 能 高 效 地 执行 。 当 然 ,动态 调度 的 这 些 优 点 是 以 硬件 复杂 
性 的 显著 增加 为 代价 的 。 


5.3.1 动态 调度 的 基本 思想 


第 3 章 中 讨论 的 5 段 流 水 线 有 一 个 很 大 的 局 限 性 , 即 其 指令 是 按 序 流出 (In-order 
Issue) 和 按 序 执行 (In-order Execution) 的 。 如 果 某 条 指令 在 流水 线 中 被 停顿 了 ,其 后 面 所 
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有 的 指令 也 就 都 停止 前 进 了 。 如 果 系 统 中 有 多 个 功能 部 件 , 那 么 这 些 部 件 就 很 可 能 因为 没 
有 指令 可 处 理 而 处 于 空闲 状态 ,系统 效率 低下 。 
考虑 下 述 例子 : 


DIV.D 而 了 ,了 
RDD.D El0, 到 FEF8 
SUB.D Fl]2,F6,F14 


ADD.D 指令 与 DIV.D 指令 关于 F4 相关 ,导致 流水 线 停顿 。SUB. D 指令 也 因此 受阻 ,而 
实际 上 它 与 流水 线 中 的 任何 指令 都 没有 关系 。 这 是 按 序 流出 和 按 序 执行 带 来 的 局 限 性 。 如 
果 可 以 不 按 程 序 顺 序 执行 指令 ,就 能 够 进一步 提高 性 能 。 

在 第 3 章 的 流水 线 中 ,结构 冲突 和 数据 冲突 都 是 在 译 码 (ID) 段 进行 检测 的 。 只 有 当 既 
没有 结构 冲突 也 没有 数据 冲突 时 ,指令 才能 够 流出 。 为 了 使 上 述 指令 序列 中 的 SUB. D 指 
令 能 继续 执行 下 去 ,必须 把 指令 流出 的 工作 拆 分 为 两 步 : 

(1) 检测 结构 冲突 ; 

(2) 等 待 数据 冲突 消失 。 

只 要 检测 到 没有 结构 冲突 ,就 可 以 让 指令 流出 。 并 且 流 出 后 的 指令 一 旦 其 操作 数 就 绪 
就 可 以 立即 执行 。 这 样 上 面 的 SUB. D 指令 就 不 会 被 阻塞 了 。 修 改 后 的 流水 线 是 乱 序 执行 
(Out-of-order Execution) 的 , 即 指令 的 执行 顺序 与 程序 顺序 不 相同 。 同 样 ,指令 的 完成 也 是 
乱 序 完成 (Out-of-order Completion) 的 , 即 指令 的 完成 顺序 与 程序 顺序 不 相同 。 

为 了 支持 乱 序 执行 ,将 前 述 5 段 流 水 线 ( 图 3.17, 下 同 ) 的 译 码 (ID) 段 细 分 为 两 个 段 。 

(1) 流出 (Cissue) : 指令 译 码 ,并 检查 是 否 存在 结构 冲突 。 如 果 不 存在 结构 冲突 ,就 将 指 
令 流出 。 

(2) 读 操 作 数 : 等 待 数据 冲突 消失 (如 果 有 的 话 ) ,然后 读 操 作 数 。 

可 以 看 出 ,指令 的 流出 仍然 是 按 序 流出 (In-order Issue) 的 。 但 是 ,它们 在 读 操作 数 段 可 
能 停顿 和 互相 跨越 ,因而 进入 执行 段 时 就 可 能 已 经 是 乱 序 的 了 。 

在 前 述 5 段 流水 线 中 ,是 不 会 发 生 WAR 冲突 和 WAW 冲突 的 。 但 现在 的 乱 序 执行 就 
使 得 它们 都 可 能 发 生 了 。 例 如 ,考虑 下 面 的 代码 : 


DIV.D | 了 0 ,E0,F2 


RDD.D |F10|,F4,F6 


SUB.D Fb,F8,F14 


SUB. D 指令 与 ADD.D 指令 存在 反 相关 (关于 F6) ,如果 流 水 线 在 ADD. D 读 出 F6 之 前 就 
完成 SUB. D 了 ,就 会 出 现 错误 。 类 似 地 ,ADD. D 与 DIV. D 存在 输出 相关 (关于 F10) ,流水 
线 必须 能 检测 出 该 相关 ,并 避免 WAW 冲突 。 在 后 面 将 看 到 ,可 以 通过 使 用 寄存 器 重 命名 
来 消除 它们 。 

执行 自 紧 跟 在 读 操作 数 段 之 后 ,和 前 述 5 段 流水 线 一 样 。 在 浮 点 流水 线 中 ,执行 阶段 可 
能 需要 多 个 时 钟 周 期 , 因 不 同 的 运算 而 不 同 。 

在 后 面 的 讨论 中 ,我 们 将 区 分 指令 何 时 开始 执行 、 何 时 结束 执行 。 在 开始 执行 与 结束 执 
行 之 间 , 指 令 是 处 于 正在 执行 当中 。 采 用 动态 调度 的 流水 线 支持 多 条 指令 同时 处 于 执行 当 
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中 ,这 是 动态 调度 的 一 大 优点 。 但 这 要 求 具有 多 个 功能 部 件 .或 者 功能 部 件 流水 化 、 或 者 两 
者 兼 而 有 之 。 这 里 假设 具有 多 个 功能 部 件 。 

指令 乱 序 完成 大 大 增加 了 异常 处 理 的 复杂 度 。 动 态 调度 的 处 理 机 是 这 样 来 保持 正确 的 
异常 行为 的 : 对 于 一 条 会 产生 异常 的 指令 来 说 ,只 有 当 处 理 机 确切 地 知道 该 指令 将 被 执行 
时 , 才 人 允许 它 产 生 异 常 。 

即使 保持 了 正确 的 异常 行为 ,动态 调度 处 理 机 仍 可 能 发 生 不 精确 异常 。 所 谓 不 精确 异 
常 (Imprecise Exception) 是 指 : 当 执 行 指令 i 导致 发 生 异 常 时 ,处 理 机 的 现场 (状态 ) 与 严格 
按 程序 顺序 执行 时 指令 i 的 现场 不 同 。 反 之 ,如 果 发 生 异 常 时 ,处 理 机 的 现场 跟 严 格 按 程序 
顺序 执行 时 指令 i 的 现场 相同 ,就 称 为 精确 异常 (Precise Exception) 。 不 精确 异常 使 得 在 异 
常 处 理 后 难以 接着 继续 执行 程序 。 

之 所 以 会 发 生 不 精确 异常 ,是 因为 当 发 生 异 常 ( 设 为 指令 店 时 : 四 流水 线 可 能 已 经 执行 
完 按 程序 顺序 是 位 于 指令 i 之 后 的 指令 ; @ 流 水 线 可 能 还 没完 成 按 程序 顺序 是 指令 i 之 前 
的 指令 。 

记分 牌 算法 和 Tomasulo 算法 是 两 种 比较 典型 的 动态 调度 算法 。 下 面 先 介绍 记分 牌 算 
法 ,然后 详细 论述 Tomasulo 算法 。Tomasulo 算法 比 记 分 牌 算法 改进 了 许多 ,是 一 种 更 强 
的 算法 。 许 多 开发 指令 级 并 行 的 现代 处 理 机 都 采用 了 Tomasulo 算法 或 其 变形 。 


5.3.2 记分 牌 动态 调度 方法 


1. 基本 思想 

记分 牌 (Scoreboard) 方 法 这 一 名 称 起 源 于 最 早 采 用 此 功能 的 CDC 6600 计算 机 。 该 机 
器 用 一 个 称 为 记分 牌 的 硬件 实现 了 对 指令 的 动态 调度 。 该 硬件 中 维护 着 三 张 表 ,分 别 用 于 
记录 指令 的 执行 状态 、 功 能 部 件 状 态 .寄存 器 状态 以 及 数据 相关 关系 等 。 它 把 前 述 5 段 流水 
线 中 的 译 码 段 ID 分 解 成 了 两 个 段 : 流出 和 读 操 作 数 ,以 避免 当 某 条 指令 在 ID 段 被 停顿 时 
挡住 后 面 无 关 指令 的 流动 。 

记分 牌 的 目标 是 在 没有 结构 冲突 时 , 尽 可 能 早 地 执行 没有 数据 冲突 的 指令 ,实现 每 个 时 
钟 周期 执行 一 条 指令 。 如 果 某 条 指令 被 暂停 ,而 后 面 的 指令 与 流水 线 中 正在 执行 或 被 暂停 
的 指令 都 不 相关 ,那么 这 些 指 令 就 可 以 跨越 它们 ,继续 流出 和 执行 下 去 。 记 分 牌 全 面 负责 和 
管理 这 些 指令 的 流出 和 执行 ,当然 也 包括 检测 所 有 的 冲突 。 

由 于 允许 指令 相互 跨越 ,所 以 尽管 所 有 的 指令 在 流出 段 都 是 按 序 流出 的 ,但 它们 却 可 能 
是 乱 序 执行 和 乱 序 完成 的 。 这 有 利于 提高 处 理 器 的 性 能 .因为 乱 序 执行 和 完成 消除 了 许多 
等 待 。 

要 发 挥 指令 乱 序 执行 的 好 处 ,必须 有 多 条 指令 同时 处 于 执行 阶段 。CDC 6600 具有 16 
个 独立 的 功能 部 件 : 4 个 浮 点 部 件 ,5 个 访 存 部 件 ,7 个 整数 操作 部 件 。 在 类 似 MIPS 结构 的 
处 理 器 中 ,记分 牌 主要 用 于 浮 点 部 件 才 有 意义 ,这 是 因为 其 他 部 件 的 操作 延迟 都 很 小 。 假 设 
所 考虑 的 处 理 器 有 两 个 乘法 器 一 个 加 法 器 一 个 除法 部 件 和 一 个 整数 部 件 , 整 数 部 件 用 来 
处 理 所 有 的 存储 器 访问 、 分 支 处 理 和 整数 操作 。 尽 管 这 个 例子 比 CDC 6600 简单 ,但 它 足 以 
阐明 记分 牌 的 基本 工作 原理 。 由 于 MIPS 和 CDC 6600 都 采用 load-store 结构 ,所 以 它们 采 
用 的 技术 非常 类 似 。 图 5. 1 是 采用 了 记分 牌 的 MIPS 处 理 器 的 基本 结构 。 
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图 5.1 具有 记分 牌 的 MIPS 处 理 器 的 基本 结构 


每 条 指令 都 要 经 过 记分 牌 。 记 分 牌 负责 相关 检测 并 控制 指令 的 流出 和 执行 。 指 令 流 出 
时 ,记分 牌 在 表 中 记录 相关 的 信息 ,并 决定 什么 时 候 该 指令 可 以 读 出 操作 数 和 开始 执行 。 如 
果 确 定 该 指令 不 能 马上 执行 ,记分 牌 就 会 监视 硬件 中 信息 的 每 一 个 变化 ,一 旦 所 需 的 操作 数 
就 绪 , 就 立即 启动 该 指令 的 执行 。 

下 面 来 看 看 指令 在 采用 了 记分 牌 的 流水 线 中 的 处 理 步骤 。 每 条 指令 的 执行 过 程 分 为 4 
段 : 流出 . 读 操作 数 、 执 行 和 写 结果 。 由 于 主要 考虑 浮 点 操作 ,运算 在 浮 点 寄存 器 上 进行 , 因 
此 不 涉及 存储 器 访问 段 。 

1) 流出 

如 果 当 前 流出 指令 所 需 的 功能 部 件 空闲 ,并 且 所 有 其 他 正在 执行 的 指令 的 目的 寄存 器 
与 该 指令 的 不 同 , 记 分 牌 就 向 功能 部 件 流出 该 指令 ,并 修改 记分 牌 内 部 的 记录 表 。 

可 以 看 出 ,在 记分 牌 方法 中 ,如 果 存 在 结构 相关 或 WAW 冲突 ,该 指令 就 不 流出 。 在 这 
里 就 解决 了 WAW 冲突 。 当 然 , 该 指令 若 不 流出 ,也 就 阻止 了 后 面 指令 的 流出 。 

2) 读 操 作 数 

记分 牌 监 测 源 操作 数 的 可 用 性 ,如 果 数 据 可 用 , 它 就 通知 功能 部 件 从 寄存 器 中 读 出 源 操 
作 数 并 开始 执行 。 这 一 步 动态 地 解决 了 RAW 冲突 ,并 导致 指令 可 能 乱 序 开始 执行 。 那 么 
如 何 判断 数据 可 用 呢 ? 对 于 给 定 的 寄存 器 来 说 ,如 果 所 有 前 面 已 流出 且 还 在 执行 的 指令 都 
不 对 该 寄存 器 进行 写 操作 ,那么 该 寄存 器 中 的 数据 就 是 可 用 的 了 了。 显然, 如果 有 正在 执行 的 
指令 要 对 其 进行 写 入 ,就 要 等 待 , 直 到 相应 的 功能 部 件 完成 对 这 个 寄存 器 的 写 操作 。 

上 述 流出 和 读 操 作 数 段 合 起 来 就 完成 了 前 述 5 段 流 水 线 的 译 码 段 (ID) 的 功能 。 

3) 执行 

取 到 操作 数 后 ,功能 部 件 开始 执行 。 当 产生 出 结果 后 ,就 通知 记分 牌 它 已 经 完成 执行 。 
这 一 步 相当 于 前 述 5 段 流水 线 中 的 执行 段 (EX) 。 在 浮 点 流水 线 中 .这 一 段 可 能 要 占用 多 个 
时 钟 周 期 。 

4) 写 结 果 

记分 牌 一 旦 知道 执行 部 件 完成 了 执行 ,就 检测 是 否 存 在 WAR 冲突 。 如 果 不 存 在 ,或 者 


a 
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原 有 的 WAR 冲突 已 消失 ,记分 牌 就 通知 功能 部 件 把 结果 写 和 目的 寄存 器 ,并 释放 该 指令 使 
用 的 所 有 资源 。 这 一 步 对 应 于 前 述 5 段 流 水 线 中 的 写 回 段 (WB) 。 

如 果 检 测 到 WAR 冲突 ,就 不 允许 该 指令 将 结果 写 到 目的 寄存 器 ,这 发 生 在 以 下 情况 ， 

前 面 的 某 条 指令 ( 按 顺序 流出 ) 还 没有 读 取 操 作 数 ,而 且 其 某 个 源 操作 数 寄存 器 与 本 指 
令 的 目的 寄存 器 相同 。 

在 这 种 情况 下 ,记分 牌 必须 等 待 ,直到 该 冲突 消失 。 

记分 牌 是 通过 与 功能 部 件 的 通信 来 控制 指令 的 逐步 执行 。 由 于 功能 部 件 与 寄存 器 组 之 
间 只 有 很 有 限 的 几 条 总 线 连接 ,所 以 这 里 有 可 能 会 发 生 结构 冲突 。 记 分 牌 要 保证 在 上 述 第 
2) 和 第 4) 步 中 ,所 允许 同时 执行 的 功能 部 件 的 个 数 不 超过 可 用 总 线 的 条 数 。CDC 6600 是 这 样 
来 解决 这 个 问题 的 : 把 它 所 拥有 的 功能 部 件 分 成 4 组 ,然后 给 每 一 组 配备 一 套 总 线 ( 两 条 
“入 ”, 一 条 “出 ”)。 在 每 个 时 钟 周期 ,每 一 组 中 只 有 一 个 设备 可 以 进行 读 操 作 数 或 者 写 结果 。 

记分 牌 中 记录 的 信息 由 三 部 分 构成 。 

(1) 指令 状态 表 : 记录 正在 执行 的 各 条 指令 已 经 进入 到 了 哪 一 段 。 

(2) 功能 部 件 状 态 表 : 记录 各 个 功能 部 件 的 状态 。 每 个 功能 部 件 有 一 项 ,每 一 项 由 以 
下 9 个 字段 组 成 。 

Busy: 忙 标志 ,指出 功能 部 件 是 否 忙 。 初 值 为 no; 

Op: 该 功能 部 件 正在 执行 或 将 要 执行 的 操作 ; 

Fi: 目的 寄存 器 编号 ; 

Fj ,Fk: 源 寄存 器 编号 ; 

Qj ,Qk: 指出 向 源 寄存 器 Fj、Fk 写 数据 的 功能 部 件 ( 即 Fj、Fk 中 的 数据 将 由 它们 产 
生 ); 

Rj ,Rk: 标志 位 ,为 yes 表示 Fj ,FA 中 的 操作 数 就 绪 且 还 未 被 取 走 ,否则 就 被 置 为 no。 

(3) 结果 寄存 器 状态 表 Result: 每 个 寄存 器 在 该 表 中 有 一 项 ,用 于 指出 哪个 功能 部 件 
(编号 ) 将 把 结果 写 人 该 寄存 器 。 如 果 当 前 正在 运行 的 指令 都 不 以 它 为 目的 寄存 器 , 则 其 相 
应 项 置 为 no。Result 各 项 的 初 值 为 no( 全 零 ) 。 

2. 举例 

下 面 详细 分 析 如 图 5. 1 所 示 的 MIPS 记分 牌 所 要 维护 的 数据 结构 。 图 5. 2 给 出 了 下 列 
代码 运行 过 程 中 记分 牌 保存 的 信息 。 其 中 Integer 表示 整数 部 件 ,Multl 和 Mult2 表示 乘法 
部 件 ,Add 表示 加 法 部 件 ,Divide 表示 除法 部 件 。 


LD F6, 34 (FR2) 
L.D F2,45(R3) 
MILT.D FO,F2,F4 
SUB.D F8,F6,F2 
DIV.D F]0,F0,F6 
ADD.D Fé6,F8,F2 


在 图 5. 2 的 指令 状态 表 中 ,第 一 条 L. D 指令 已 经 完全 执行 完 ,其 结果 已 经 写 人 了 F6; 
第 二 条 L. D 指令 也 已 经 执行 完 .但 是 结果 还 没有 写 入 目的 寄存 器 F2; 由 于 第 二 条 L. D 指令 
与 MULT.D 和 SUB. D 指令 之 间 存 在 关于 寄存 器 F2 的 先 写 后 读 (RAW) 相 关 , 因 此 
MULT.D 和 SUB.D 在 流出 段 等 待 , 不 能 进入 流水 线 的 读 操作 数 段 。 同 样 .MULT. D 与 
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DIV.D 之 间 存 在 关于 寄存 器 F0 的 RAW 相关 ,因此 DIV. D 也 只 能 在 流出 段 等 待 。 指 令 
ADD. D 与 指令 SUB. D 之 间 存 在 关于 加 法 器 的 结构 相关 ,因此 后 面 的 ADD.D 连 流出 都 不 
能 做 ,必须 等 到 前 面 SUB. D 指令 全 部 执行 完毕 、 释 放 加 法 器 后 才能 够 流出 。 
指令 a 
流出 ”| 读 操作 数 执行 写 结果 
L.D F6,34(R2) | V v v 
LD F2, 45(R3) ¥ | -了 v 
MULT.D_F0,F2,F4 v | 
SUB.D 。 F8,F6,F2 v | 
DIV.D ~ F10,F0,F6 | 
ADD.D 。 F6, F8, F2 | 


EE 
部 件 名 称 Busy| Op Fi 站 Qi Qk | RI Rk 
Integer yes LD F2 R3 | | no 

Multl yes IMULT.D| FO F2 | F4 |Integer | no yes 
Mult2 no | | 

Add yes | SuBD | F8 | F6 | F2 Integer| yes | no 
Divide | yes | DIVD | Flo | Fo | F6 | Muntl | no | yes 

[ 结果 寄存 器 状态 表 
FO F2 F4 F6 


图 5.2 MIPS 记分 牌 中 的 信息 


关于 图 5. 2 中 的 功能 部 件 状 态 表 , 先 来 看 第 一 行 的 情况 。 整 数 (Integer) 部 件 的 Busy 
字段 为 yes, 表 示 部 件 正 忙 ,从 其 Op 字段 可 以 知道 它 在 执行 L. D 指令 ,目的 寄存 器 字段 Fi 
中 记录 的 是 F2。 相 应 地 ,在 结果 寄存 器 状态 表 的 F2 字段 中 记录 的 是 Integer 部 件 。 对 于 存 
储 器 访问 类 指令 来 说 ,第 一 源 操作 数 寄存 器 字段 Fj 中 记录 的 应 该 是 访 存 地 址 寄存 器 。 在 本 
例 中 就 是 R3。 它 的 Rj 字段 为 no, 表示 R3 的 数据 已 经 被 读 取 过 了 。 

接 下 来 看 看 功能 部 件 状 态 表 中 第 二 行 的 各 字段 。 在 乘法 1(Multl 部件 的 Busy 字段 也 
是 yes ,表示 正 忙 。Op 字段 记录 的 是 MULT. D 指令 ,其 目的 寄存 器 字段 Fi 的 内 容 为 F0。 
相应 地 ,在 结果 寄存 器 状态 表 的 F0 字段 中 记录 的 是 Multl ,表示 Fo 将 存放 Multl 部 件 的 运 
算 结果 。 在 第 一 源 操作 数 寄存 器 字段 Fj 中 记录 的 是 F2, 它 的 Qj 字段 非 空 ,为 Integer, 表 
示 F2 的 数据 将 来 自 Integer 部 件 的 操作 结果 , 它 的 Rj 字段 为 no, 表 示 F2 的 数据 还 没有 就 
绪 , 这 个 过 程 可 以 用 来 判断 并 解决 数据 的 写 后 读 相关 ;第 二 源 操作 数 寄存 器 字段 Fk 中 记录 
的 是 F4,Qk 字段 为 空 ,表示 F4 不 依赖 于 当前 工作 的 任何 部 件 ,Rk 字段 为 yes, 表 示 F4 的 数 
据 已 经 就 绪 。 乘 法 2(Mult2) 部 件 的 Busy 字段 是 no, 表 示 该 功能 部 件 当 前 空闲 。 

其 他 部 件 的 状态 字段 分 析 与 上 述 描述 类 似 , 就 不 一 一 介绍 了 。 

结果 寄存 器 状态 表 中 的 字段 与 每 个 寄存 器 一 一 对 应 . 它 记 录 了 当前 机 器 状态 下 将 把 结 
果 写 入 该 寄存 器 的 功能 部 件 的 名 称 。 在 图 5. 2 中 .当前 写 Fo 的 为 Multl 部 件 , 写 F2 的 为 
Integer 部 件 , 写 F8 的 为 Add 部 件 , 写 F10 的 为 Divide 部 件 。 字 有 段 为 空 表示 空闲 , 即 对 应 的 
寄存 器 没有 被 任何 当前 正在 工作 的 功能 部 件 作 为 目的 寄存 器 使 用 。 
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下 面 来 看 一 看 图 5. 2 中 的 指令 序列 如 何 往 下 执行 。 

例 5.1 假设 浮 点 流水 线 中 各 部 件 的 延迟 如 下 。 

加 法 需 2 个 时 钟 周 期 

乘法 需 10 个 时 钟 周期 ; 

除法 需 40 个 时 钟 周期 。 
代码 段 和 记分 牌 信息 的 起 始点 状态 如 图 5. 2 所 示 。 分 别 给 出 MULT. D 和 DIV. D 准备 写 
结果 之 前 的 记分 牌 状态 。 

解 图 5.2 中 的 代码 段 存在 以 下 相关 性 。 

(1) 先 写 后 读 (RAW) 相 关 . 第 二 条 L.D 指令 到 MULT.D 和 SUB.D 之 间 ,MULT. D 
到 DIV.D 之 间 ,SUB.D 到 ADD.D 之 间 ; 

(2) 先 读 后 写 (WAR) 相 关 : DIV.D 和 ADD. D 之 间 ,SUB.D 和 ADD. D 之 间 ， 

(3) 结构 相关 : ADD. D 和 SUB. D 指令 关于 浮 点 加 法 部 件 。 

图 5.3 和 图 5. 4 分 别 给 出 了 MULT. D 指令 和 DIV. D 指令 将 要 写 结果 时 记分 牌 的 


指令 指令 状态 表 
流出 ”| 读 操作 数 | 执行 | 写 结果 
LD F6, 34(R2) vv | vv | v* [|v 
LD F2, 45(R3) We oe we | Ww 
MULT.D FO0, F2, F4 v | v | YYv | 
SUB.D _F8, F6,F2 v v J 7 
DIVD ~ FI10,F0,F6 v 
ADD.D ~ F6,F8,F2 x -| “|= | 
态 : 
部 件 名 称 [Busy] Op [Fr 区 OFT RT RE 
Integer 
Multl 
Mult2 
Add 
Divide 
结果 寄存 器 状态 表 
FT FT F | Fo]| Fs |For TF30 
部 件 名 称 | Multl | Add | Divide 


图 5.3 程序 段 执 行 到 MULT. D 将 要 写 结果 时 记分 牌 的 状态 


从 图 5. 3 中 可 以 知道 ,在 MULT. D 准备 写 结 果 之 前 ,由 于 DIV. D 指令 与 MULT.D 指 
令 之 间 存 在 关于 寄存 器 F0 的 RAW 相关 ,因此 在 MULT. D 指令 完成 写 结果 之 前 ,DIV. D 
指令 被 阻塞 在 流出 段 而 无 法 进入 读 操 作 数 段 。 同 时 由 于 ADD. D 指令 与 DIV. D 指令 之 间 
存在 关于 寄存 器 F6 的 WAR 相关 ,因此 在 DIV. D 指令 从 F6 中 读 出 操作 数 之 前 ,ADD. D 
指令 被 阻塞 在 执行 段 ,无 法 进入 写 结果 段 。 

在 图 5.4 中 ,DIV. D 准备 写 结果 之 前 .这 条 指令 前 面 的 指令 已 经 全 部 执行 完毕 ,由 于 
DIV.D 指令 执行 需要 40 个 时 钟 周期 ,其 后 的 ADD. D 指令 只 需要 两 个 时 钟 周期 ,而 且 
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DIV.D 和 ADD.D 之 间 存 在 的 WAR 相关 在 DIV. D 读 走 源 操作 数 后 就 已 经 消失 了 ,因此 
ADD.D 有 足够 的 时 间 完 成 所 有 操作 ,所 以 就 只 剩 下 DIV. D 指令 没有 完成 写 结果 操作 。 府 
指令 - 首 令 状态 表 
流出 读 操作 数 执行 写 结果 
L.D F6, 34(R2) Y Y V V 
LD F2, 45(R3) V Y V y 
MULT.D F0,F2,F4 Y Y V v 
SUB.D Fs8,F6,F2 V 以 V 
DIV.D ”Fl0,Fo,F6 V V V 
ADD.D ~ F6,F8,F2 y y y ~ 
太 
部 件 名 称 Busy[ Op Fi 人 QT QT RT RE 
Integer no 
Multl no 
Mult2 no 
Add no | 
Divide | yes | pIvD | Flo | Fo | F6 no | no 
结果 寄存 器 状态 表 
F4 

部 件 名 称 Divide 


图 5.4 程序 段 执行 到 DIV. D 将 要 写 结果 时 记分 牌 的 状态 


3. 具体 算法 

现在 来 看 一 看 记分 牌 是 如 何 控制 指令 执行 的 。 指 令 在 流水 线 中 前 进 是 有 条 件 的 ,而 且 
在 前 进 时 记分 牌 必须 记录 有 关 的 信息 。 下 面 给 出 每 条 指令 在 流水 线 中 进入 各 段 的 条 件 以 及 
所 进行 的 记分 牌 内 容 的 修改 工作 。 为 了 区 分 寄存 器 的 名 字 和 寄存 器 的 值 , 我 们 约定 寄存 器 
的 内 容 表 示 为 RegsLS] 的 形式 ,其 中 的 S 是 寄存 器 的 名 字 。 所 以 ,Fj[FUJ]<-S1 表示 将 寄存 
器 名 S1( 而 不 是 寄存 器 Sl 中 的 内 容 ) 送 入 Fj[FU]J。 

在 下 面 的 算法 中 , 我 们 约定 

FU: 表示 当前 指令 所 要 用 的 功能 部 件 ; 

D: 目的 寄存 器 的 名 称 ; 

S1、S2: 源 操作 数 寄存 器 的 名 称 ; 

Op: 要 进行 的 操作 ; 

FiLFU]: 功能 部 件 FU 的 Fj 字段 (其 他 字段 以 此 类 推 ); 

ResultLD]: 结果 寄存 器 状态 表 中 与 寄存 器 D 相对 应 的 内 容 。 其 中 存放 的 是 将 结果 写 
入 寄存 器 D 的 功能 部 件 的 名 称 。 

1) 指令 流出 


(内 进入 条 件 。 
not Busy[FU] & not Result[D]; ”// 功 能 部 件 空闲 且 没 有 写 后 写 (BW) 冲 突 
(2) 记分 牌 内 容 修改 。 
Busy[FU]*— yes; // 把 当前 指令 的 相关 信息 填 人 功能 部 件 状态 表 
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// 功 能 部 件 状态 表 中 各 字段 的 含义 见 前 面 


OP[EV]< Op; // 记 录 操 作 码 

Fi[EU]<—D; // 记 录 目 的 寄存 器 编号 

[EO]<—S1; // 记 录 第 一 个 源 寄存 器 编号 

Ek[EV]<—S2; // 记 录 第 二 个 源 寄存 器 编号 

Qj [EV] Result [Ss1]; // 记 录 将 产生 第 一 个 源 操作 数 的 部 件 

Qk[EV]<—Result [S2]; // 记 录 将 产生 第 二 个 源 操作 数 的 部 件 

Rj [EU]<—not Qj [EU]; // 置 第 一 个 源 操作 数 是 否 可 用 的 标志 。 如 果 凶 E 四 为 mp 
// 就 表示 没有 操作 部 件 要 写 sL, 数 据 可 用 
// 置 二 [EU 为 yes。 否 则 置 机 [EU 为 no 

BRk[EU]< not GQk[EO]; // 置 第 二 个 源 操作 数 是 否 可 用 的 标志 


Result [D]<— FU; 


2) 读 操作 数 


册 进入 条 件 。 
Rj [EV] &Rk[FU]， 
(2) 记分 牌 内 容 修改 。 
Rj [FV]<no; 
RK[FEVU]<—no; 
Qj [EV 0; 


//D 是 当前 指令 的 目的 寄存 器 。 功 能 部 件 可 
// 将 把 结果 写 人 D 


// 两 个 源 操 作 数 都 已 就 绪 


// 已 经 读 走 了 就 绪 的 第 一 个 源 操作 数 
// 已 经 读 走 了 就 绪 的 第 二 个 源 操作 数 
// 不 再 等 待 其 他 外 的 计算 结果 


Qk [EV] 0; 
3) 执行 


结束 条 件 。 
功能 部 件 操作 结束 。 


4) 写 结果 


由 进入 条 件 。 
V £((Ej[£]AFIEV] or Rj[f]=no) 
&(EK[£]A Fi[EV] or RK[£]=n0)); 
人 记分 牌 内 容 修改 。 
VE(GE 凶 四 = then 时 [<-yes); // 如 果 有 指令 在 等 待 该 结果 (作为 第 一 源 操作 数 ) 
// 则 将 其 时 置 为 yes, 表 示 数 据 可 用 
Vf(if Qk[f]=U then Rk[f]<-yes); // 如 果 有 指令 在 等 待 该 结果 (作为 第 二 源 操作 数 ) 
// 则 将 其 卫 置 为 yes, 表 示 数 据 可 用 
// 释 放 目的 寄存 器 瑟 [EO] 
// 释 放 功能 部 件 外 


// 不 存在 WER 冲突 


Result (Fi [EU])*—0; 
Busy[EU]= no; 
记分 牌 的 性 能 受 限 于 以 下 几 个 方面 : 
(1) 程序 代码 中 可 开发 的 并 行 性 , 即 是 否 存在 可 以 并 行 执行 的 不 相关 的 指令 。 如 果 每 
条 指令 均 与 前 面 的 指令 相关 ,那么 任何 动态 调度 策略 均 无 法 解决 流水 线 的 停顿 问题 。 另 外 ， 
如 果 只 是 在 基本 块 中 开发 指令 级 并 行 性 , 那 所 能 开发 的 并 行 性 就 很 有 限 了 。 
(2) 记分 牌 的 容量 。 记 分 牌 的 容量 决定 了 流水 线 能 在 多 大 范围 内 寻找 不 相关 指令 。 流 
水 线 中 可 以 同时 容纳 的 指令 数量 称 为 指令 窗口 ,目前 假设 记分 牌 指令 窗口 中 仅仅 容纳 一 个 
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基本 块 ,这 样 就 可 以 不 考虑 分 支 指令 的 问题 。 

(3) 功能 部 件 的 数目 和 种 类 。 功 能 部 件 的 总 数 决定 了 结构 冲突 的 严重 程度 。 采 用 动态 
调度 后 结构 冲突 会 更 加 频繁 。 

(4) 反 相 关 和 输出 相关 。 它 们 引起 记分 牌 中 的 WAR 和 WAW 冲突 。 

问题 (2) 和 (3) 可 通过 增加 记分 牌 的 容量 和 功能 部 件 的 数量 来 解决 ,但 这 会 导致 处 理 器 
成 本 增加 ,并 可 能 影响 系统 时 钟 周期 时 间 。 在 采用 动态 调度 的 处 理 器 中 ,WAW 和 WAR 冲 
突 会 增多 ,因为 乱 序 流出 的 指令 在 流水 线 中 会 引起 更 多 的 名 相关 。 如 果 在 动态 调度 中 采用 
分 支 预测 技术 ,就 会 出 现 循环 的 多 个 迭代 同时 执行 ,名 相关 将 更 加 严重 。 


5.3.3 Tomasulo 算法 


1. 基本 思想 

Tomasulo 算法 是 由 Robert Tomasulo 发 明 的 ,因而 以 他 的 名 字 命 名 。 首 先 采 用 了 这 种 
方法 的 是 IBM360/91 机 器 中 的 浮 点 部 件 。 尽 管 许多 现代 处 理 机 采用 了 这 种 方法 的 各 种 变 
形 ,但 其 核心 思想 都 是 : 记录 和 检测 指令 相关 ,操作 数 一 旦 就 绪 就 立即 执行 ,把 发 生 RAW 
冲突 的 可 能 性 减 小 到 最 少 ; @ 通 过 寄存 器 换 名 来 消除 WAR 冲突 和 WAW 冲突 。 

IBM360/91 之 所 以 会 采用 Tomasulo 算法 ,是 基于 以 下 几 个 方面 的 考虑 

(1) IBM360/91 的 设计 目标 是 基于 整个 360 系列 的 统一 的 指令 系统 和 编译 器 来 实现 高 
性 能 ,而 不 是 设计 和 利用 专用 的 编译 器 来 提高 性 能 。 这 样 , 就 需要 更 多 地 依赖 于 硬件 。 

(2) IBM360 体系 结构 只 有 4 个 双 精 度 浮 点 寄存 器 ,限制 了 编译 器 调度 的 有 效 性 。 

(3) IBM360/91 的 访 存 时 间 和 浮 点 计算 时 间 都 很 长 。 

寄存 器 换 名 可 以 消除 WAR 冲突 和 WAW 冲突 ,请 看 以 下 代码 : 


DIV.D FO,F2,F4 
RDD.D 王 m, 轩 
sD E60R) 

suB.D [本 ,Fl0,F14 


ML.D FG, mo, 本 


ADD.D 和 MUL.D 指令 之 间 存 在 一 个 输出 相关 (F6), 这 可 能 导致 一 个 WAW 冲突 
ADD.D 和 SUB. D 之 间 存 在 一 个 反 相关 (F8) .这 可 能 导致 一 个 WAR 冲突 。 引 入 两 个 临时 
寄存 器 S 和 了, 并 把 上 面 的 两 个 F6 换 名 为 S, 把 下 面 的 两 个 F8 换 名 为 工 , 则 得 到 以 下 代码 ， 


DIV.D FO,F2,F4 
RDDD Sm 四 
S.D 5,0R1) 


SuB.D [9,Fl0,m4 


MIL.D FGFl0,d 


这 样 就 消除 了 上 述 名 相关 。 
1) 基于 Tomasulo 算法 的 MIPS 处 理 器 浮 点 部 件 的 基本 结构 
下 面 在 MIPS 指令 集 的 情况 下 来 介绍 Tomasulo 算法 ,我 们 重点 关心 的 是 浮 点 部 件 以 


a 
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及 load/store 部 件 。 图 5. 5 是 基于 Tomasulo 算法 的 MIPS 处 理 器 浮 点 部 件 的 基本 结构 ,其 
中 采用 了 多 个 功能 部 件 。 图 中 没有 画 出 记录 和 控制 指令 执行 所 使 用 的 各 种 表格 。 


从 指令 部 件 来 
指 ! 浮 点 寄存 器 FP | 
队 
列 
load/store 操 作 


store 缓 冲 器 地 址 部 件 


1 1 load 缓 冲 器 一 一 
6 
5 | | 操作 总 线 
4 
! Add3 1 
2 Add2 | | | Mult2 
1 | Addl | Multl 
本 7 
! | 保留 站 
存储 部 件 浮 点 加 法 器 浮 点 采 法 器 
公共 数据 总 线 (CDB) 


图 5.5 采用 Tomasulo 算法 的 MIPS 浮 点 部 件 的 基本 结构 


先 对 图 5. 5 中 的 各 组 成 部 分 作 一 简要 说 明 。 

(1) 保留 站 。 

保留 站 (Reservation Station) 设 置 在 运算 部 件 的 入 口 。 浮 点 加 法 器 的 入 口 处 共有 三 个 
加 法 保留 站 ,分 别 命名 为 Addl ,Add2,Add3 ; 浮 点 乘法 器 的 入 口 处 有 两 个 保留 站 ,分 别 命名 
为 Multl,Mult2。 每 个 保留 站 都 有 一 个 标识 字段 ,唯一 地 标识 了 该 保留 站 。 每 个 保留 站 中 
保存 一 条 已 经 流出 并 等 待 到 本 功能 部 件 执行 的 指令 ,其 内 容 包 括 操 作 码 .操作 数 以 及 用 于 检 
测 和 解决 冲突 的 信息 。 后 面 将 详细 介绍 这 些 信 息 。 在 一 条 指令 流出 到 保留 站 的 时 候 , 如 果 
该 指令 的 源 操作 数 已 经 在 寄存 器 中 就 绪 , 则 将 之 取 到 该 保留 站 中 。 如 果 操 作 数 还 没有 就 绪 ， 
则 在 该 保留 站 中 记录 将 产生 这 个 操作 数 的 保留 站 的 标识 。 

(2) 公共 数据 总 线 。 

公共 数据 总 线 (Common Data Bus,CDB) 是 该 结构 中 的 一 条 重要 的 数据 通路 ,所 有 功能 
部 件 的 计算 结果 都 是 送 到 CDB 上 .由 它 把 这 些 结果 直接 播送 到 各 个 需要 该 结果 的 地 方 。 
从 存储 器 读 取 的 数据 也 是 送 到 CDB 上 。CDB 连接 到 除了 load 缓冲 器 以 外 的 所 有 部 件 的 
入 口 。 浮 点 寄存 器 通过 一 对 总 线 连接 到 功能 部 件 ,并 通过 CDB 连接 到 store 缓冲 器 的 
戏 品 。 

(3) load 缓冲 器 和 store 缓冲 器 。 

load 缓冲 器 和 store 缓冲 器 中 存放 的 是 读 / 写 存储 器 的 数据 或 地 址 。 它 们 的 行为 和 保 
留 站 类 似 , 所 以 在 后 面 的 讨论 中 也 把 它们 当 作 保 留 站 来 看 待 。 只 有 在 必须 区 别 它 们 时 , 才 加 
以 区 分 。 

load 缓冲 器 的 作用 有 三 个 : 

@ 存放 用 于 计算 有 效 地 址 的 分 量 ; 
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@ 记录 正在 进行 的 load 访 存 ,等 待 存储 器 的 响应 ; 

@ 保存 已 经 完成 了 的 load 的 结果 ( 即 从 存储 器 取 来 的 数据 ) ,等 待 CDB 传输 。 

类 似 地 ,store 缓冲 器 的 作用 也 有 三 个 : 

@ 存放 用 于 计算 有 效 地 址 的 分 量 ; 

@ 保存 正在 进行 的 store 访 存 的 目标 地 址 ,该 store 正在 等 待 存储 数据 的 到 达 ; 

@ 保存 该 store 的 地 址 和 数据 ,直到 存储 部 件 接收 。 

(4) 浮 点 寄存 器 FP。 

共有 16 个 浮 点 寄存 器 : F0,F2,F4,…,F30。 它 们 通过 一 对 总 线 连 接 到 功能 部 件 ,并 通 
过 CDB 连接 到 store 缓冲 器 。 

(5) 指令 队列 。 

指令 部 件 送 来 的 指令 放 和 人 指令 队列 。 指 令 队 列 中 的 指令 按 先进 先 出 的 顺序 流出 。 

(6) 运算 部 件 。 

浮 点 加 法 器 完成 加 法 和 减法 操作 , 浮 点 乘法 器 完成 乘法 和 除法 操作 。 

在 Tomasulo 算法 中 ,寄存 器 换 名 是 通过 保留 站 和 流出 逻辑 来 共同 完成 的 。 当 指令 流 
出 时 ,如 果 其 操作 数 还 没有 就 绪 , 则 将 该 指令 中 相应 的 寄存 器 号 换 名 为 将 产生 这 个 操作 数 的 
保留 站 的 标识 。 所 以 ,指令 流出 到 保留 站 后 ,其 操作 数 寄存 器 号 或 者 换 成 了 数据 本 身 ( 若 已 
就 绪 ) ,或 者 换 成 了 保留 站 的 标识 ,不 再 与 寄存 器 有 关 。 这 样 后 面 的 指令 对 该 寄存 器 的 写 和 人 
操作 就 不 可 能 产生 WAR 冲突 了 。 

下 面 通过 一 个 简单 的 例子 来 说 明 Tomasulo 算法 的 基本 思想 。 把 图 5.5 简化 为 图 5. 6(a)， 
并 且 增 加 了 一 个 寄存 器 状态 表 Qi。 每 个 寄存 器 在 Qi 中 有 一 项 ,用 于 指出 哪个 保留 站 将 产 
生 该 寄存 器 的 值 。 

(1) 参见 图 5. 6(b) , 当 指令 MUL 流出 到 保留 站 Multl 时 ,由 于 其 操作 数 a 和 6。 就绪 
(在 F2 和 F4 中 ) ,就 将 它们 从 寄存 器 取 到 保留 站 ,这 样 该 指令 以 后 就 跟 F2 和 F4 没有 关系 
了 ,执行 时 直接 从 保留 站 中 取 数 据 。 同 时 将 目的 寄存 器 F0 对 应 的 Qi 标志 置 为 Multl ,表示 
该 寄存 器 的 内 容 将 由 保留 站 Multl 提供 (如 图 5. 6(b) 中 的 虚线 所 示 ) 。 

(2) 参见 图 5.6(c) , 当 指令 ADD 流出 到 保留 站 Addl 时 ,也 将 操作 数 c 取 到 保留 站 ,但 
发 现 F0 中 的 操作 数 还 没有 就 绪 , 于 是 就 把 其 提供 者 Multl 的 标识 取 到 保留 站 中 。 这 样 就 
有 两 个 地 方 在 等 Multl 的 结果 。 同 时 , 它 将 目的 寄存 器 F2 对 应 的 Qi 标志 置 为 Addl ,表示 
该 寄存 器 的 内 容 将 由 保留 站 Addl 提供 。 

(3) 参见 图 5.6(d) , 当 Multl 的 运算 结果 产生 后 ( 设 为 e) .就 把 数据 放 到 总 线 上 ( 广 
播 ), 所 有 等 待 该 数据 的 地 方 都 会 自动 把 数据 取 走 。Addl1 中 的 ADD 指令 得 到 该 数据 后 , 马 
上 就 可 以 开始 执行 。 

Tomasulo 算法 采用 分 布 的 保留 站 ,因而 具有 以 下 两 个 特点 : 

(1) 冲突 检测 和 指令 执行 控制 是 分 布 的 。 每 个 功能 部 件 的 保留 站 中 的 信息 决定 了 什么 
时 候 指 令 可 以 在 该 功能 部 件 开 始 执 行 。 

(2) 计算 结果 通过 CDB 直接 从 产生 它 的 保留 站 传送 到 所 有 需要 它 的 功能 部 件 , 而 不 用 

2) 指令 执行 步骤 

在 详细 介绍 Tomasulo 算法 之 前 , 先 来 看 一 下 指令 执行 的 步骤 ,这 里 只 需要 三 步 。 


a 
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(1) 流出 。 

从 指令 队列 的 头 部 取 一 条 指令 。 如 果 该 指令 的 操作 所 要 求 的 保留 站 有 空闲 的 ,就 把 该 
指令 送 到 该 保留 站 ( 设 为 r)。 并 且 ,如果 其 操作 数 在 寄存 器 中 已 经 就 绪 , 就 将 这 些 操作 数 送 
入 保留 站 r。 如 果 其 操作 数 还 没有 就 绪 , 就 把 将 产生 该 操作 数 的 保留 站 的 标识 送 入 保留 站 
r。 这 样 ,一 旦 被 记录 的 保留 站 完成 计算 , 它 就 直接 把 数据 送 给 保留 站 r。 这 一 步 实 际 上 是 进 
行 了 寄存 器 换 名 ( 换 成 保留 站 的 标识 ) 和 对 操作 数 进行 了 缓冲 ,消除 了 WAR 冲突 。 另 外 ,还 
要 完成 对 目的 寄存 器 的 预约 工作 ,将 之 设置 为 接收 保留 站 r 的 结果 。 这 实际 上 相当 于 提前 
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(b) 
图 5.6 一 个 简单 的 例子 
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完成 了 写 操 作 ( 预 约 )。 由 于 指令 是 按 程序 顺序 流出 的 , 当 出 现 多 条 指令 写 同一 个 结果 寄存 
器 时 ,最 后 留 下 的 预约 结果 肯定 是 最 后 一 条 指令 的 ,就 是 说 消除 了 WAW 冲突 。 

当然 ,如 果 没 有 空闲 的 保留 站 ,指令 就 不 能 流出 。 这 是 发 生 了 结构 冲突 。 

(2) 执行 。 

如 果 某 个 操作 数 还 没有 计算 出 来 ,本 保留 站 将 监视 CDB, 等 待 所 需 的 计算 结果 。 一 旦 
那个 结果 产生 , 它 就 被 放 到 CDB 上 ,本 保留 站 将 立即 获得 该 数据 。 当 两 个 操作 数 都 就 绪 后 ， 
本 保留 站 就 用 相应 的 功能 部 件 开 始 执行 指令 规定 的 操作 。 这 里 是 等 到 所 有 操作 数 都 备 齐 后 
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才 开 始 执行 指令 ,也 就 是 说 是 靠 推迟 执行 的 方法 解决 RAW 冲突 的 。 由 于 结果 数据 是 从 其 
产生 的 部 件 (保留 站 ) 直 接送 到 需要 它 的 地 方 , 所 以 这 已 经 是 最 大 限度 地 减少 了 RAW 冲突 
的 影响 。 

显然 ,保留 站 有 可 能 会 出 现 多 条 指令 在 同一 时 钟 周期 变 成 就 绪 的 情况 。 不 同 的 功能 部 
件 可 以 并 行 执行 ,但 在 一 个 功能 部 件 内 部 ,就 绪 的 多 条 指令 就 得 逐条 地 处 理 。 可 以 采用 随机 
的 方法 选择 要 执行 的 指令 。 

load 和 store 指令 的 执行 需要 两 个 步骤 : 计算 有 效 地 址 (要 等 到 基地 址 寄存 器 就 绪 ) 和 
把 有 效 地 址 放 入 load 或 store 缓冲 器 。load 缓冲 器 中 的 load 指令 的 执行 条 件 是 存储 器 部 
件 就 绕 。 而 store 缓冲 器 中 的 store 指令 在 执行 前 必须 等 到 要 存 人 存储 器 的 数据 到 达 。 通 
过 按 顺 序 进 行 有 效 地 址 计算 来 保证 程序 顺序 ,这 有 助 于 避免 访问 存储 器 的 冲突 。 

(3) 写 结 果 。 

功能 部 件 计 算 完 毕 后 .就 将 计算 结果 放 到 CDB 上 .所 有 等 待 该 计算 结果 的 寄存 器 和 保 
留 站 (包括 store 缓冲 器 ) 都 同时 从 CDB 上 获得 所 需要 的 数据 。store 指令 在 这 一 步 完 成 对 
存储 器 的 写 和 人: 当 写 人 地 址 和 数据 都 备 齐 时 ,将 它们 送 给 存储 器 部 件 ,store 指令 完成 。 

保留 站 .寄存 器 组 和 load/store 缓冲 器 都 包含 附加 标志 信息 ,用 于 检测 和 消除 冲突 。 不 
同 部 件 的 附加 信息 略 有 不 同 。 标 识字 段 实际 上 就 是 用 于 换 名 的 一 组 虚拟 寄存 器 的 名 称 ( 编 
号 )。 例 如 ,在 图 5. 5 中 ,标识 字段 可 以 是 一 个 4 位 的 二 进 制 数字 ,用 于 表示 5 个 保留 站 和 6 
个 load 缓冲 单元 中 的 某 一 个 。 这 相当 于 有 11 个 保留 站 可 以 被 指定 为 产生 结果 的 源 ( 而 
IBM360 体系 结构 中 只 有 4 个 双 精 度 浮 点 寄存 器 ) 。 特 殊 编 号 0 用 于 表示 寄存 器 中 的 操作 
数 就 绪 。 

虽然 在 Tomasulo 算法 中 ,是 把 保留 站 作为 扩展 的 虚拟 寄存 器 ,在 别 的 方法 中 ,也 可 以 
采用 其 他 的 存储 单元 作为 虚拟 寄存 器 ,例如 采用 额外 的 寄存 器 或 者 类 似 于 后 面 将 要 介绍 的 
再 定 序 (reorder) 缓 冲 器 结构 等 。 

每 个 保留 站 有 以 下 7 个 字段 。 

Op: 要 对 源 操 作 数 进行 的 操作 。 

Qj ,Qk: 将 产生 源 操作 数 的 保留 站 号 。 等 于 0 表示 操作 数 已 经 就 绪 且 在 Vj 或 Vk 中 ， 
或 者 不 需要 操作 数 。 

Vj,Vk: 源 操作 数 的 值 。 对 于 每 一 个 操作 数 来 说 ,V 或 Q 字段 只 有 一 个 有 效 。 对 于 
load 来 说 ,Vk 字段 用 于 保存 偏 移 量 。 

Busy: 为 yes 表示 本 保留 站 或 缓冲 单元 “ 忙 ”。 

A: 仅 load 和 store 缓冲 器 有 该 字段 。 开 始 是 存放 指令 中 的 立即 数字 段 ,地 址 计算 后 存 
放 有 效 地 址 。 

Qi: 寄存 器 状态 表 。 每 个 寄存 器 在 该 表 中 有 对 应 的 一 项 ,用 于 存放 将 把 结果 写 人 该 寄 
存 器 的 保留 站 的 站 号 。 为 0 表示 当前 没有 正在 执行 的 指令 要 写 该 寄存 器 ,也 即 该 寄存 器 中 
的 内 容 就 绪 。 

2. 举例 

在 讨论 具体 的 算法 之 前 , 先 举 两 个 例子 ,来 看 看 Tomasulo 算法 是 如 何 工作 的 。 

例 5.2 对 于 下 述 指令 序列 ,给 出 当 第 一 条 指令 完成 并 写 入 结果 时 ,Tomasulo 算法 所 
用 的 各 信息 表 中 的 内 容 。 
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第 
LD EF6,3(2) 
LD EF2,45(3) 5 
阐 


MOL.D FO,F2,F4 

SUB.D F8,F2,F6 

DIV.D F]10,F0,F6 

ADD.D Fé6,F8,F2 

解 图 5.7 给 出 了 当 采 用 Tomasulo 算法 时 ,在 上 述 给 定 的 时 刻 , 保 留 站 、load 缓冲 器 
以 及 寄存 器 状态 表 中 的 内 容 。 标 志 Addl 表示 第 一 个 加 法 功能 部 件 , Multl 表示 第 一 个 乘 
法 功能 部 件 , 其 余 以 此 类 推 。 图 中 列 出 的 指令 执行 状态 表 仅 仅 是 为 了 帮助 理解 ,实际 上 并 不 
是 硬件 的 一 部 分 ,每 条 指令 流出 后 的 状态 都 是 保存 在 保留 站 中 的 。 


指令 指令 执行 状态 加 
流出 | 执行 | 写 结果 

LD F6, 34(R2) ~ | < | 4 

LD F2, 45(R3) y | Y | 

MUL.D ~ F0,F2, F4 Y | | 

SUB.D Fs8,F2,F6 ~ 

DIV.D F10, F0, F6 V 

ADD.D FF6,F8,F2 V | | 

名 称 局 保留 站 内 容 | 

usy | _ OPp Vi Vk Qi Qk A 

Loadl| no 
Load2| yes |L.D 45+Regs[R3] 
IAddl | yes |SUB.D Mem[34+Regs[R2]]|Load2 
Add2 | yes |ADD.D Addl |Load2 
Add3 | no 

Multl| yes |MUL.D| Regs[F4] Load2 

Mult2| yes |DIV.D Mem[34+Regs[R2]]|Multl 

[ 寄存 器 状态 
|_F0 F2 F4 | F6 F8 | FI0 | … F30 

Qi | Multl | Load2 Add2 | Addl | Mult2 


图 5.7 第 一 条 load 指令 结束 后 保留 站 和 寄存 器 状态 表 的 内 容 


图 中 所 有 的 指令 均 已 流出 ,但 只 有 第 一 条 load 指令 执行 完毕 并 将 结果 写 到 CDB 上 。 
第 二 条 load 指令 已 经 完成 有 效 地 址 计算 ,正在 等 待 存储 器 的 响应 。 我 们 用 Regs[] 表 示 寄 存 
器 组 ,用 Mem[] 表 示 存 储 器 。 这 里 ,刚刚 流出 的 ADD. D 指令 与 前 一 条 指令 DIV. D 有 一 个 
WAR 冲突 ,但 它 可 以 先 于 DIV. D 完成 而 不 会 导致 错误 。 

与 其 他 更 简单 的 动态 调度 方法 (例如 记分 牌 ) 相 比 ,Tomasulo 算法 具有 两 个 主要 的 
优点 : 

(1) 冲突 检测 逻辑 是 分 布 的 (通过 保留 站 和 CDB 实现 ) 。 

如 果 有 多 条 指令 已 经 获得 了 一 个 操作 数 , 并 同时 在 等 待 同一 运算 结果 ,那么 这 个 结果 一 
产生 ,就 可 以 通过 CDB 同时 播送 给 所 有 这 些 指令 ,使 它们 可 以 同时 执行 。 如 果 用 的 是 集中 
的 寄存 器 组 ,各 条 指令 就 要 等 结果 写 人 寄存 器 ,然后 再 依次 顺序 从 寄存 器 组 读 出 。 
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(2) 消除 了 WAW 冲突 和 WAR 冲突 导致 的 停顿 。 

这 是 通过 使 用 保留 站 进行 寄存 器 换 名 ,并 且 在 操作 数 一 旦 就 绪 就 将 之 放 人 保留 站 来 实现 的 。 

上 述 例子 中 ,ADD. D 指令 与 DIV. D 指令 有 一 个 WAR 冲突 。 当 DIV.D 流出 时 ,有 两 
种 可 能 。 一 种 是 提供 DIV. D 的 操作 数 的 L. D 指令 已 经 执行 完成 ,那么 该 操作 数 就 已 经 就 
绪 , 将 之 取 到 保留 站 的 Vk 中 。 另 一 种 情况 是 该 L. D 指令 尚未 完成 , 即 该 操作 数 还 没有 就 
绪 , 那 么 就 让 Qk 指向 保留 站 Loadl( 即 把 Loadl 保留 站 的 标识 放 入 Qk) 中 。 不 管 是 哪 一 种 
情况 ,DIV.D 流出 后 都 已 和 寄存 器 F6 没有 关系 了 ,因而 也 与 ADD. D 上 毫 无 关系 了 。 所 以 
ADD.D 可 以 执行 和 保存 结果 到 F6, 并 且 对 DIV.D 的 正确 执行 没有 影响 

例 5.3 对 于 例 5. 2 中 的 代码 ,假设 各 种 操作 的 延迟 如 下 。 

load: 1 个 时 钟 周期 ; 

加 法 : 2 个 时 钟 周期 ; 

乘法 : 10 个 时 钟 周期 ; 

除法 : 40 个 时 钟 周期 。 
给 出 MUL. D 指令 准备 写 结果 时 各 状态 表 的 内 容 。 

解 MUL.D 指令 准备 写 结 果 时 各 状态 表 的 内 容 如 图 5. 8 所 示 。 

指令 指令 执行 状态 
流出 执行 | ” 写 结 果 

L.D F6, 34(R2) 
L.D F2, 45(R3) 
FO0, F2, F4 
F8, F2, F6 
DIV.D F10, F0, F6 
ADD.D F6,F8,F2 


| 


V 
V 


V 
V 
V 
V 
~ 
V 


保留 站 
名 称 |Busy| Op 可 Vv QF TETA 


Multl| yes |MUL.D| Mem[45+Regs[R3]] Regs[F4] 
Mult2| yes |DIV.D Mem[34+Regs[R2]] |Multl 


寄存 器 状态 
FE0 2 F6 | F8 | FI | TF0 
Qi | Multl | | | Mu 


图 5.8 MUL.D 指 令 准 备 写 结果 时 各 状态 表 的 内 容 


[Ea 


这 里 ,由 于 ADD. D 指令 与 DIV. D 指令 的 WAR 冲突 已 经 消除 ,ADD. D 可 以 先 于 
DIV. DD 完成 并 将 结果 写 人 F6 ,不 会 出 现 错误 。 

3. 具体 算法 

下 面 给 出 Tomasulo 算法 中 指令 进入 各 阶段 的 条 件 以 及 在 各 阶段 进行 的 操作 和 状态 表 


指 们 级 立行 及 其 开发 一 硬件 方 法 


内 容 的 修改 ,其 中 各 符号 的 意义 如 下 。 

r: 分 配给 当前 指令 的 保留 站 或 者 缓冲 器 单元 (编号 ); 

rd: 目的 寄存 器 编号 ; 

rs\rt: 操作 数 寄存 器 编号 ; 

imm: 符号 扩展 后 的 立即 数 ; 

RS: 保留 站 ; 

result: 浮 点 部 件 或 load 缓冲 器 返回 的 结果 ; 

Qi: 寄存 器 状态 表 ; 

Regs[]: 寄存 器 组 ; 

Op: 当前 指令 的 操作 码 。 

对 于 load 指令 来 说 ,rt 是 保存 所 取 数 据 的 寄存 器 号 ,对 于 store 指令 来 说 ,rt 是 保存 所 
要 存储 的 数据 的 寄存 器 号 。 与 rs 对 应 的 保留 站 字段 是 Vj,Qj; 与 rt 对 应 的 保留 站 字段 是 
VA,QA。 

请 注意 ; Qi、Qj 、QA 的 内 容 或 者 为 0, 或 者 是 一 个 大 于 0 的 整数 。Qi 为 0 表示 相应 寄 
存 器 中 的 数据 就 绪 ,Qji、QA 为 0 表示 保留 站 或 缓冲 器 单元 中 的 Vj 或 Vk 字段 中 的 数据 就 
绪 。 当 它们 为 正 整数 时 ,表示 相应 的 寄存 器 .保留 站 或 缓冲 器 单元 正在 等 待 结果 。 这 个 正 整 
数 就 是 产生 该 结果 的 保留 站 或 load 缓冲 器 单元 的 编号 。 

1) 指令 流出 

上 浮 点 运算 指令 。 

进入 条 件 : 有 空闲 保 留 站 ( 设 为 匡 。 


操作 和 状态 表 内 容 修改 。 
if Qi[rs] 夫 0) // 检 测 第 一 操作 数 是 否 就 绪 
{RS[r] .0 Qi[rs])} // 第 一 操作 数 没有 就 绪 , 进 行 寄存 器 换 名 ,即将 产生 该 操作 数 的 保 


// 留 站 的 编号 放 入 当前 保留 站 的 外。 该 编号 是 一 个 大 于 0 的 整数 
else {RS[r].W<-Regs[rs]l; 。”// 第 一 操作 数 就 结 。 把 寄存 器 zs 中 的 操作 数 取 到 当前 保留 站 的 太 


RS[r] .Qj 0}; // 置 为 0, 表 示 当 前 保留 站 的 太 中 的 操作 数 就 绪 
if (Qi[rt]A0) // 检 测 第 二 操作 数 是 否 就 绪 
{RS[r] .Qkee—Qi [rt]} // 第 二 操作 数 没 有 就 绪 ,进行 寄存 器 换 名 ,即将 产生 该 操作 数 的 保 


// 留 站 的 编号 放 入 当前 保留 站 的 Qk。 该 编号 是 一 个 大 于 0 的 整数 
else {RS[r].Vke-Regs[rt];  // 第 二 操作 数 就 结 。 把 寄存 器 式 中 的 操作 数 取 到 当前 保留 站 的 wk 


RS[r] .Qk—0}; // 置 为 0, 表 示 当 前 保留 站 的 闪 中 的 操作 数 就 绪 
RS[r] .Busy*— yes; // 置 当前 保留 站 为 “ 忙 ” 
RS[r] .Op*—Op; // 设 置 操作 码 
Qilrd]<—r; // 把 当前 保留 站 的 编号 +r 放 入 rd 所 对 应 的 寄存 器 状态 表 项 


/以 便 冯 将 来 接收 结果 
(2) load 和 store 指 令 。 
进入 条 件 : 缓冲 器 有 空闲 单元 ( 没 为 z)。 


操作 和 状态 表 内 容 修改 。 
if Qi[rs] 关 0) // 检 测 第 一 操作 数 是 否 就 绪 
{RS[r] .Qj Qi [rs] // 第 一 操作 数 没有 就 绪 , 进 行 寄 存 器 换 名 ,即将 产生 该 操作 数 的 保 


// 留 站 的 编号 存 人 当前 缓冲 器 单元 的 邓 
else 


a 
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{RS[r] .Vj Regs[rs]; 
RS[r] .Qj 0}; 

RS[r] .Busy* yes; 

RS[r] .Re Im 

对 于 load 指 令 : 

和 [Frt< 7 


对 于 store 指 令 : 


// 第 一 操作 数 就 绪 ,把 寄存 器 瑟 中 的 操作 数 取 到 当前 缓冲 器 单元 的 态 
// 置 jj 为 0, 表 示 当 前 缓冲 器 单元 的 页 中 的 操作 数 就 绪 
// 置 当前 缓冲 器 单元 为 “ 忙 ” 
// 把 按 符号 位 扩展 后 的 偏 移 量 放 入 当前 缓冲 器 单元 的 A 中 


// 把 当前 缓冲 器 单元 的 编号 r 放 入 lcad 指 令 的 目的 寄存 器 忒 所 对 应 
// 的 寄存 器 状态 表 项 ,以 便 坏 将 来 接收 所 取 的 数据 


if (Qi[rt] 0) // 检 测 要 存储 的 数据 是 否 就 绪 

{RS[r] .Qk Qi [rt]} // 该 数据 尚未 就 绪 ,进行 寄存 器 换 名 ,即将 产生 该 数据 的 保留 站 的 
// 编 号 放 入 当前 缓冲 器 单元 的 ok 

else 
{RS[r] .Vee Regs[rt]; // 该 数据 就 绪 , 把 它 从 寄存 器 忒 取 到 store 缓 冲 器 单元 的 录 
RS[r] .Qk 0}; // 置 为 0, 表 示 当 前 缓冲 器 单元 的 炎 中 的 数据 就 绪 

2) 执行 

() 浮 点 操作 指令 。 

进入 条 件 : Rs[r].Qj=0) 且 RS[r] .Qe= 0); // 两 个 源 操作 数 就 绪 


操作 和 状态 表 内 容 修 改 : 进行 计算 ,产生 结果 。 


(2) load/store 指 令 。 


进入 条 件 : RS[r].Qj=0) 且 r 成 为 load/store 缓 冲 队 列 的 头 部 。 


操作 和 状态 表 内 容 修改 。 
RS[r] .A RS[r] .Vj+RS[r] .Ra 


1/ 计算 有 效 地 址 


对 于 load 指 令 ,在 完成 有 效 地 址 计算 后 ,还 要 进行 : 


从 MEm[Rs[r] .A] 读 取 数 据 ; 
3) 写 结果 


// 从 存储 器 中 读 取 数据 


上 浮 点 运算 指令 和 load 指 令 。 
进入 条 件 : 保留 站 执行 结束 , 且 CoB 就 绪 。 


操作 和 状态 表 内 容 修改 。 

Vx (if (Qi[x]=r) 
{Regs[x]<— result; 
Qi[zx]*0}; 

V x (if (RS[x] .Qj=r) 
{RS[x] .Vj<—result; 
RS[x] .Qj*—0); 

Vx (if (RS[zx] .Qe= 7) 
{RS[x] :Vk result; 
RS[x] .Qk 0}); 

RS[r] .Busy< no; 

(2) store 指 令 。 


// 对 于 任何 一 个 正在 等 该 结果 的 浮 点 寄存 器 x 

// 向 该 寄存 器 写 人 结果 

// 把 该 寄存 器 的 状态 置 为 数据 就 绪 

// 对 于 任何 一 个 正在 等 该 结果 作为 第 一 操作 数 的 保留 站 x 
// 向 该 保留 站 的 页 写 入 结果 

// 置 丰 为 0 表示 该 保留 站 的 机 中 的 操作 数 就 绪 

// 对 于 任何 一 个 正在 等 该 结果 作为 第 二 操作 数 的 保留 站 x 
// 向 该 保留 站 的 冰 写 人 结果 

// 置 你 为 0, 表 示 该 保留 站 的 灰 中 的 操作 数 就 绪 

// 释 放 当 前 保留 站 ,将 之 置 为 空闲 状态 


进入 条 件 : 保留 站 执行 结束 , 且 RS[r] .Qe=0 /要 存储 的 数据 已 经 就 绪 


操作 和 状态 表 内 容 修改 。 
MEm[RS [r] .AN]< RS[Ir] .wk 
RS[r] .Basy< no; 


/数据 写 人 存储 器 ,地 址 由 store 缓 冲 器 单元 的 A 字段 给 出 
// 释 放 当 前 缓冲 器 单元 ,将 之 置 为 空闲 状态 


指 们 级 立行 及 其 开发 一 硬件 方 法 


说 明 : 

(1) 当 浮 点 运算 指令 流出 到 一 个 保留 站 r 时 ,把 该 指令 的 目的 寄存 器 rd 的 状态 表 项 置 
为 +, 以 便 将 来 从 r 接收 运算 结果 (相当 于 进行 了 预约 或 者 定向 )。 如 果 该 指令 所 需 的 操作 数 
都 已 经 就 绪 , 就 将 之 取 到 保留 站 r 的 V 字段 ;否则 .就 表示 需要 等 待 由 别 的 保留 站 ( 设 为 s) 
为 其 产生 操作 数 , 这 时 就 把 保留 站 的 Q 字段 设置 为 指向 保留 站 s, 指 令 将 在 保留 站 r 中 等 
待 操作 数 , 直 到 保留 站 s 把 结果 送 来 (同时 将 该 Q 字段 置 为 0) 。 当 指令 执行 完成 且 CDB 就 
绪 , 就 可 以 把 结果 写 回 , 即 把 数据 放 到 CDB 上 ,所 有 Qj、QEk 或 Qi 字段 等 于 s 的 保留 站 、 缓 
冲 器 单元 以 及 寄存 器 都 可 以 在 同一 个 时 钟 周期 内 同时 接收 该 结果 , 即 把 该 结果 在 一 个 时 钟 
周期 内 播送 到 所 有 需要 它 的 地 方 。 操 作 数 因此 而 备 齐 的 指令 可 以 在 下 一 个 时 钟 周期 开始 
执行 。 

(2) 在 Tomasulo 算法 中 ,load 和 store 指令 的 处 理 与 浮 点 运算 指令 有 些 不 同 。 只 要 
load 缓冲 器 有 空闲 单元 ,load 指令 就 可 以 流出 。load 指令 在 “执行 ”阶段 分 两 步 进行 : 计算 
有 效 地 址 和 访 存 读 取 数据 。 执 行 完毕 后 ,与 其 他 功能 部 件 一 样 , 一 旦 获得 CDB 的 使 用 权 ,就 
可 以 将 结果 放 到 CDB 上 。store 指令 的 写 入 操作 在 “ 写 结果 ” 阶 段 进行 。 如 果 要 写 入 的 数据 
已 经 就 绪 , 就 可 以 马上 进行 。 否 则 就 需要 等 待 ,等 该 数据 产生 后 从 CDB 获得 ,然后 写 入 存储 
器 。 最 后 要 释放 当前 缓冲 器 单元 ,将 之 置 为 空闲 状态 。 

(3) 该 算法 对 于 指令 的 执行 有 一 个 限制 ,就 是 如 果 流 水 线 中 还 有 分 支 指令 没有 执行 , 那 
么 当前 指令 就 不 能 进入 “执行 ?阶段 。 这 是 因为 在 * 流 出 阶段 后 ,程序 顺序 就 不 再 被 保证 了 。 
所 以 ,为 了 保持 正确 的 异常 行为 ,就 必须 加 上 这 个 限制 。 在 5.4 节 将 介绍 如 何 利用 前 瞻 执 行 
来 消除 这 个 限制 。 

如 果 能 够 准确 地 预测 分 支 , 采 用 Tomasulo 算法 将 获得 很 高 的 性 能 。 这 种 方法 的 主要 
缺点 是 其 复杂 性 ,实现 它 需 要 大 量 的 硬件 。 此 外 ,其 性 能 还 可 能 受 单 条 CDB 总 线 的 限制 。 
虽然 可 以 增加 更 多 的 CDB, 但 这 会 进一步 增加 所 需 的 硬件 。 由 于 Tomasulo 算法 的 实现 成 
本 是 比较 高 的 ,所 以 在 单 流出 的 流水 线 中 ,与 用 编译 器 实现 的 指令 调度 的 方法 相 比 ,采用 
Tomasulo 算法 所 带 来 的 好 处 与 所 花 的 代价 相 比 不 一 定 值得 。 但 是 ,对 于 多 流出 的 处 理 机 来 
说 , 随 着 流出 能 力 的 提高 以 及 设计 者 们 更 多 地 关心 难以 静态 调度 的 代码 的 性 能 ,寄存 器 换 名 
以 及 动态 调度 技术 就 变 得 越 来 越 重 要 了 。 特 别 是 ,Tomasulo 算法 还 是 硬件 前 瞻 执 行 的 基 
础 ,因此 该 算法 得 到 了 广泛 的 应 用 。 

随 着 处 理 机 能 够 开发 的 ILP 的 增加 ,控制 相关 很 快 就 成 了 一 个 必须 很 好 地 解决 的 问 
题 ,需要 采用 能 有 效 地 处 理 分 支 的 方法 。5. 4 节 介 绍 用 硬件 动态 处 理 分 支 的 方法 。 


5.4 动态 分 支 预测 技术 


开发 的 ILP 越 多 ,控制 相关 的 制约 就 越 大 ,就 要 求 分 支 预测 有 更 高 的 准确 度 。 在 交流 
出 (每 个 时 钟 周期 流出 n 条 指令 ) 的 处 理 机 中 , 遇 到 分 支 指令 的 可 能 性 增加 了 nn 售 。 要 给 处 
理 器 连续 提供 指令 ,就 需要 能 准确 地 预测 分 支 。 而 且 机 器 的 CPI 越 小 ,控制 停顿 的 相对 影 
响 就 越 大 。 所 以 本 节 中 介绍 的 动态 分 支 预 测 技术 对 于 多 流出 处 理 机 来 说 是 非常 重要 的 。 

第 3 章 中 介绍 过 几 种 静态 处 理 分 支 指令 的 基本 方法 ,如 预测 成 功 和 延迟 分 支 。 在 这 些 
方法 中 ,所 进行 的 操作 是 预先 定好 的 ,与 分 支 的 实际 执行 情况 无 关 。 本 节 论 述 的 方法 则 不 


a 
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同 , 它 是 用 硬件 动态 地 进行 分 支 处 理 的 。 这 些 方法 是 在 程序 的 运行 过 程 中 ,根据 分 支 指令 过 
去 的 表现 来 预测 其 将 来 的 行为 。 如 果 分 支行 为 发 生 了 变化 ,预测 结果 也 就 跟着 改变 。 因 此 
有 更 好 的 预测 准确 度 和 适应 性 。 

分 支 预测 的 有 效 性 不 仅 取 决 于 其 准确 性 ,而 且 还 与 预测 正确 和 不 正确 两 种 情况 下 的 分 
支 开 销 有 密切 关系 。 这 些 分 支 开 销 是 由 流水 线 的 结构 、 预 测 的 方法 和 预测 错误 时 的 恢复 策 
略 等 诸 因 素 决 定 的 。 

采用 这 些 动态 分 支 预测 技术 的 目的 有 两 个 : 四 预测 分 支 是 否 成 功 ; 四 尽快 找到 分 支 目 
标 地 址 (或 指令 ), 从 而 避免 控制 相关 造成 流水 线 停顿 。 

在 这 些 方 法 中 ,需要 解决 以 下 两 个 关键 问题 : 

(1) 如 何 记录 分 支 的 历史 信息 ,要 记录 哪些 信息 ? 


(2) 如 何 根 据 这 些 信 息 来 预测 分 支 的 去 向 ， 得 到 分 支 结果 
其 至 提前 取出 分 支 目 标 处 的 指令 ? Pl rt = 
此 外 ,在 预测 错误 时 ,要 作废 已 经 预 取 和 分 分 支 指令 一 -一 -一 
析 的 指令 ,恢复 现场 ,并 从 另 一 条 分 支 路 径 重 新 一 [让 人 人 
取 指 令 ,如 图 5.9 所 示 。 显 然 ,为 了 能 恢复 现场 ， --~ 猜测 执行 路 径 | 


需要 在 执行 预测 的 目标 指令 之 前 将 现场 保存 一 一 实际 执行 路 径 
起 来 。 图 5.9 分 支 预测 不 成 功 时 的 重新 执行 过 程 


5.4.1 和 采用 分 支 历 史 表 


分 支 历 史 表 (Branch History Table, BHT) 法 是 最 简单 的 动态 分 支 预 测 方法 。 它 用 
BHT 来 记录 相关 分 支 指令 的 “历史 ”, 并 据 此 进行 预测 。 这 个 “历史 ”是 指 最 近 一 次 或 几 次 的 
执行 情况 是 成 功 还 是 失败 。 如 果 只 记录 分 支 指令 最 近 一 次 的 历史 ,BHT 中 就 只 需要 一 位 二 
进 制 位 ,是 最 简单 的 。 为 了 提高 预测 的 准确 度 , 常 采用 两 位 二 进 制 位 来 记录 历史 。 有 研究 结 
果 表 明 ,两 位 分 支 预测 的 性 能 与 多 位 (两 位 以 上 ) 分 支 预测 的 性 能 差不多 。 因 而 大 多 数 处 理 
机 是 采用 两 位 分 支 预测 的 。 下 面 只 介绍 这 种 方案 。 

两 位 分 支 预测 的 状态 转换 如 图 5. 10 所 示 。 其 中 ,在 00 和 01 状态 下 ,该 方法 预测 分 支 
不 成 功 ;在 10 和 11 状态 下 ,该 方法 预测 分 支 成 功 。 连 线 边 上 写 的 是 分 支 指令 的 实际 执行 情 
况 。 例 如 ,在 11 状态 下 是 预测 分 支 成 功 ,如 果 分 支 指令 的 实际 执行 结果 是 不 成 功 ,那么 状态 
就 转换 为 10。 从 图 中 可 以 看 出 ,只 有 连续 两 次 预测 错误 , 才 会 改变 对 分 支 去 向 的 预测 。 例 
如 ,在 11 状态 下 如 果 连 续 两 次 预测 错误 ,状态 就 变 为 00( 预 测 分 支 不 成 功 )。 

预测 分 支 不 成 功 
分 支 不 成 功 


分 支 不 成 功 


预测 分 支 成 功 。 。 分 支 不 成 功 


分 支 不 成 功 
图 5.10 采用 两 位 分 支 预测 位 的 BHT 状态 转换 
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两 位 分 支 预测 中 的 操作 有 两 步 : 四 分 支 预测 ; 回 状态 修改 。 当 分 支 指令 到 达 译 码 段 
(ID) 时 ,根据 从 BHT 读 出 的 信息 进行 分 支 预测 ,这 时 有 两 种 情况 。 

(1) 如 果 从 BHT 读 出 的 状态 为 “00? 或 者 “01”, 就 按 * 分 支 不 成 功 ” 的 预测 进行 处 理 。 即 
继续 读 取 和 处 理 分 支 指令 后 面 的 指令 。 当 分 支 指令 的 实际 执行 结果 出 来 后 ,如 果 发 现 预测 
正确 ,就 继续 处 理 后续 的 指令 ,流水 线 没 有 断 流 。 和 否则 ,就 要 作废 已 经 预 取 和 分 析 的 指令 , 恢 
复 现 场 , 并 从 成 功 分 支 路 径 重 新 取 指 令 执行 。 

对 状态 进行 修改 的 操作 为 : 在 原状 态 为 “00? 的 情况 下 ,如 果 预 测 不 正确 ,就 把 其 状态 改 
为 “01”; 否 则 ,就 是 预测 正确 ,状态 不 变 ;在 原状 态 为 “01” 的 情况 下 ,如 果 预 测 不 正确 ,就 把 其 
状态 改 为 “11”; 和 否则 ,就 是 预测 正确 ,状态 改 为 “00”。 

(2) 如 果 从 BHT 读 出 的 状态 为 “10? 或 者 “11”, 就 按 * 分 支 成 功 ” 的 预测 进行 处 理 , 即 从 
成 功 分 支 路 径 取 指令 进行 处 理 。 等 分 支 指令 的 实际 执行 结果 出 来 后 ,如 果 发 现 预 测 正确 ,就 
继续 处 理 后 续 的 指令 ,流水 线 没有 断 流 。 和 否则 ,就 要 作废 已 经 预 取 和 分 析 的 指令 ,恢复 现场 ， 
并 从 另 一 条 分 支 路 径 一 一 分 支 失败 路 径 重新 取 指 令 。 

对 状态 进行 修改 的 操作 为 : 在 原状 态 为 “11? 的 情况 下 ,如果 预 测 不 正确 ,就 把 其 状态 改 
为 “10”; 否 则 ,就 是 预测 正确 ,状态 不 变 ;在 原状 态 为 *10” 的 情况 下 ,如 果 预 测 不 正确 ,就 把 其 
状态 改 为 “00”; 否 则 ,就 是 预测 正确 ,状态 改 为 “11”。 

在 BHT 方法 中 ,只 对 分 支 是 否 成 功 进行 预测 ,对 分 支 目 标 地 址 没有 提供 支持 。 所 以 它 
只 有 在 以 下 情况 下 才 有 用 : 判定 分 支 是 否 成 功 所 需 的 时 间 大 于 确定 分 支 目 标 地 址 所 需 的 时 
间 。 在 前 述 5 段 流水 线 中 ,由 于 判定 分 支 是 否 成 功 和 计算 分 支 目 标 地 址 都 是 在 ID 段 完成 
的 ,所 以 BHT 方法 不 会 给 该 流水 线 带 来 好 处 。 

研究 结果 表明 ,对 于 SPEC89 测试 程序 来 说 ,具有 大 小 为 4KB 的 BHT 的 预测 准确 率 为 
82% 一 99%, 并 且 与 大 小 为 无 穷 大 的 BHT 的 准确 率 相近 。 所 以 一 般 来 说 ,采用 4KB 的 
BHT 就 足够 了 。 如 果 要 进一步 提高 预测 准确 率 , 就 要 采用 更 复杂 的 预测 方法 。 

BHT 可 以 跟 分 支 指令 一 起 存放 在 指令 Cache 中 ,也 可 以 用 一 块 专门 的 硬件 来 实现 。 如 
果 是 前 者 ,在 取 指 阶段 ,就 把 历史 位 一 起 读 出 来 。 如 果 是 后 者 ,就 在 取 指 令 的 同时 ,用 指令 地 
址 的 低位 (例如 低 12 位 ) 去 访问 BHT., 读 出 历史 位 。 


5.4.2 采用 分 支 目 标 缓冲 器 


在 高 性 能 流水 线 中 ,特别 是 在 多 流出 的 处 理 机 中 ,只 准确 地 预测 分 支 还 不 够 ,还 要 能 够 
快速 地 提供 足够 的 指令 流 。 许 多 现代 的 处 理 器 都 要 求 每 个 时 钟 周期 能 提供 4 一 8 条 指令 。 
这 需要 尽早 知道 分 支 是 否 成 功 ,尽早 知道 分 支 目 标 地 址 ,尽早 获得 分 支 目 标 指令 。 

对 于 前 述 5 段 流 水 线 来 说 ,BHT 方法 是 在 ID 段 对 BHT 进行 访问 ,所 以 在 ID 段 的 末 
尾 , 能 够 获得 分 支 目 标 地 址 (在 ID 段 计算 出 ) ,顺序 下 一 条 指令 地 址 以 及 预测 的 结果 。 如 果 
能 再 提前 一 拍 , 即 在 IF 段 就 知道 这 些 信息 ,那么 分 支 开 销 就 可 以 减少 为 0。BTB 能 够 实现 
这 一 点 。BTB 是 Branch Target Buffer 的 缩写 ,其 中 文 名 称 是 分 支 目标 缓冲 器 。BTB 有 时 
也 称 为 分 支 目标 Cache。 

BTB 的 结构 如 图 5. 11 所 示 。 可 以 把 它 看 成 用 专门 的 硬件 实现 的 一 张 表格 。 表 格 中 的 
每 一 项 至 少 有 两 个 字段 : @ 执 行 过 的 成 功 分 支 指令 的 地 址 ; @ 预 测 的 分 支 目标 地 址 。 在 每 
次 取 指 令 的 同时 ,用 该 指令 的 地 址 与 BTB 中 的 所 有 项 目的 第 一 个 字段 进行 比较 。 如 果 有 匹 
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配 的 ,我 们 就 知道 该 指令 是 分 支 指令 且 上 一 次 执行 是 分 支 成 功 , 据 此 可 以 预测 这 次 执行 也 将 
分 支 成 功 ,其 分 支 目 标 地 址 由 匹配 项 的 第 二 个 字段 给 出 。 如 果 没 有 匹配 的 ,就 把 当前 指令 当 
作 普 通 的 指令 ( 即 不 是 分 支 指令 ) 来 执行 。 


当前 取 指令 的 地 址 
相 联 查找 


成 功 的 分 支 指令 地 址 分 支 目 标 地址 
A0 PO 
Al Pl 


Pk-1 


认为 本 指令 不 是 分 支 指令 ， 
按 普 通 指令 正常 执行 


认为 该 指令 是 成 功 的 分 支 指令 ， 用 预测 的 
分 支 目 标 地 址 作为 下 一 条 指令 的 PC 值 


图 5.11 BTB 的 结构 


当 采 用 BTB 后 ,在 流水 线 各 个 阶段 所 进行 的 相关 操作 见 图 5. 12。 由 于 BTB 中 存放 的 
是 执行 过 的 成 功 分 支 指令 的 地 址 ,所 以 如 果 当 前 指令 的 地 址 与 BTB 中 的 第 一 字段 匹配 , 那 
么 就 将 该 匹配 项 的 第 二 个 字段 中 的 地 址 送 给 PC 寄存 器 ,从 分 支 目 标 处 开始 取 指 令 。 如 果 
预测 正确 ,就 不 会 有 任何 分 支 延迟 。 如 果 预 测 错误 或 者 在 BTB 中 没有 匹配 的 项 ,就 会 有 至 
少 两 个 时 钟 周期 的 开销 。 这 是 因为 这 时 需要 更 新 BTB 中 的 项 ,这 要 花费 一 个 时 钟 周 期 。 而 
且 一 般 来 说 , 当 对 BTB 中 的 项 进行 修改 时 ,需要 停止 取 指 令 ,所 以 取 新 的 指令 又 要 花费 另 一 
个 时 钟 周期 。 

表 5.1 列 出 了 在 各 种 可 能 情况 下 的 延迟 。 


表 5.1 采用 BTB 后 各 种 情况 下 的 延迟 


指令 在 BTB 中 预测 实际 情况 延迟 周期 
是 成 功 成 功 0 
是 成 功 不 成 功 
不 是 成 功 2 
不 是 不 成 功 0 


BTB 的 另 一 种 形式 是 在 分 支 目标 缓冲 器 中 增设 一 个 至 少 是 两 位 的 “分 支 历 史 表 ”字段 ， 
如 图 5. 13 所 示 。 这 样 “分 支 指令 地 址 ”字段 存放 的 就 不 仅仅 是 成 功 分 支 指令 的 地 址 ,所 有 执 
行 过 的 分 支 指令 的 地 址 都 可 以 放 在 这 里 。“ 分 支 历 史 表 ” 用 来 预测 转移 方向 。 这 种 方法 实际 
上 就 是 BTB 与 BHT 的 结合 。 
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当前 PC 值 
送 存储 器 和 BTB 
IF 段 
以 BTB 的 第 二 字段 作为 
分 支 目标 地 址 送 给 PC 
D 段 | [「 直 党 执行 指令 
将 其 PC 值 和 分 支 “| | 分 支 预测 错误 ， 清 除 | ”| 分 支 预测 正确 ， 继 
目标 地 址 写 入 BTB | | 已 到 的 指令 ， 并 从 另 | “| 续 执行 后 继 指令 
EX 有 段 中 ， 作 为 一 个 新 项 一 个 分 支 ( 即 失 败 处 ) “会 出 现 停顿 
取 指令 。 从 BTB 中 删 
除 相应 的 项 


图 5.12 采用 BTB 时 所 进行 的 处 理 步 又 


当前 取 指令 的 地 址 
相 联 查找 
| 分 支 指令 地 址 分 支 历史 表 | 分 支 目标 地 址 
| A0 T0 | P0 
| Al 图 | P1 
| Ak-1 Ti | Pk-1 


图 5.13 BTB 的 另 一 种 形式 


更 进一步 ,如 果 在 表 中 对 于 每 条 分 支 指令 都 存放 若干 条 分 支 目 标 处 的 指令 ,就 形成 了 分 
支 目标 指令 缓冲 器 ,如 图 5. 14 所 示 。 这 样 在 遇 到 分 支 指令 时 ,就 有 可 能 一 次 提供 分 支 目标 
处 的 多 条 指令 ,这 对 于 多 流出 处 理 器 来 说 是 很 有 必要 的 。 


5.4.3 基于 硬件 的 前 瞪 执 行 


对 于 多 流出 的 处 理 机 来 说 ,只 准确 地 预测 分 支 已 经 不 能 满足 要 求 了 ,因为 有 可 能 每 个 时 
钟 周期 都 要 执行 一 条 分 支 指令 。 控 制 相关 已 经 成 了 开发 更 多 ILP 的 一 个 主要 障碍 。 前 瞻 
执行 (speculation) 能 很 好 地 解决 控制 相关 的 问题 , 它 对 分 支 指令 的 结果 进行 猜测 ,并 假设 这 
个 猜测 总 是 对 的 ,然后 按 这 个 猜测 结果 继续 取 、 流 出 和 执行 后 续 的 指令 。 但 执行 的 结果 不 是 
写 回 到 寄存 器 或 存储 器 ,而 是 写 入 一 个 青 定 序 缓冲 器 (ReOrder Buffer, ROB) 中 。 等 到 相应 
的 指令 得 到 “确认 ”(commit)( 即 确实 是 应 该 执行 的 ) 后 , 才 将 结果 写 入 寄存 器 或 存储 器 。 之 
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当前 取 指令 的 地 址 


相 联 查找 
分 支 指令 地 址 分 支 历史 表 分 支 目 标 处 的 若干 条 指令 
A0 T0 Joo， lo lo 
Al TI Do hs x Dn 
Ak-l1 Tk-1 Jo Jet IE 


图 5.14 分 支 目标 指令 缓冲 器 


所 以 要 这 样 ,是 为 了 确保 没有 进行 不 可 恢复 的 写 操作 ,以 便 在 猜测 错误 的 情况 下 能 够 恢复 原 
来 的 现场 。 

基于 硬件 的 前 瞻 执 行 是 把 三 种 思想 结合 在 了 一 起 。 

(1) 动态 分 支 预 测 。 用 来 选择 后 续 执 行 的 指令 。 

(2) 在 控制 相关 的 结果 尚未 出 来 之 前 ,前瞻 地 执行 后 续 指 令 。 

(3) 用 动态 调度 对 基本 块 的 各 种 组 合 进行 跨 基本 块 的 调度 。 

后 面 要 讨论 的 前 瞻 执 行 是 在 Tomasulo 算法 的 基础 上 实现 的 。PowerPC 603/604/G3/ 
G4,MIPS R10000/R12000, Intel Pentium [[ /下 /4,Alpha 21264 和 AMD K5/K6/Athlon 
等 处 理 器 中 实现 的 前 瞻 执 行 也 是 如 此 。 

对 Tomasulo 算法 加 以 扩充 ,就 可 以 支持 前 瞻 执 行 。 当 然 , 硬 件 也 需要 做 相应 的 扩展 。 
在 Tomasulo 算 法 中 , 写 结果 和 指令 完成 是 一 起 在 “ 写 结果 ” 段 完成 的 。 现 在 要 把 写 结果 和 
站 令 完 成 加 以 区 分 ,分 成 两 个 不 同 的 段 :“ 写 结果 ”和 “指令 确认 ”(Instruction Commit)。 
“ 写 结果 ” 段 是 把 前 瞻 执 行 的 结果 写 到 ROB 中 ,并 通过 CDB 在 指令 之 间 传 送 结果 ,供需 要 用 
到 这 些 结果 的 指令 使 用 。 当 然 ,这些 指 令 也 是 前 瞻 执 行 的 。“ 指 令 确认 ” 段 是 在 分 支 指令 的 
结果 出 来 后 , 才 证 实 前 面 的 猜测 是 对 的 ,因此 ,要 对 相应 指令 的 前 瞻 执 行 给予 确 认 , 即 把 在 
ROB 中 的 结果 写 到 寄存 器 或 存储 器 。 但 如 果 发 现 前 面 对 分 支 结 果 的 猜测 是 错误 的 , 那 就 不 
了 予以 确认 ,并 从 该 分 支 指令 的 另 一 条 路 径 开 始 重新 执行 。 

前 瞻 执 行 允 许 指令 乱 序 执行 ,但 要 求 按 程 序 顺序 确认 ,并且 在 指令 被 确认 之 前 ,不 允许 
它 进 行 不 可 恢复 的 操作 ,如 更 新 机 器 状态 或 发 生 异 常 。 

支持 前 瞻 执 行 的 浮 点 部 件 的 结构 如 图 5. 15 所 示 。 与 图 5.5 相 比 ,主要 是 增加 了 一 个 
ROB 缓冲 器 。 由 于 ROB 与 图 5. 5 中 的 store 缓冲 器 类 似 ,这 里 把 store 缓冲 器 的 功能 合并 
到 ROB 中 。 跟 Tomasulo 算法 一 样 ,这 里 的 store 操作 仍然 分 两 步 完 成 ,但 其 第 二 步 是 由 指 
令 确 认 来 完成 的 。 

ROB 中 的 每 一 项 由 4 个 字段 组 成 。 

(1) 指令 类 型 : 指出 该 指令 是 分 支 指令 .store 指令 或 寄存 器 操作 指令 。 

(2) 目的 地 址 : 给 出 指令 执行 结果 应 写 入 的 目的 寄存 器 号 (如 果 是 load 和 ALU 指令 ) 
或 存储 器 单元 的 地 址 (如 果 是 store 指令 )。 


指 们 级 立行 及 其 开发 一 硬件 方 法 


1 1 
从 指令 部 件 来 mm ts 
T 1 
寄存 器 号 | ”| 数据 
指 
队 浮 点 寄存 器 FP 
列 
load/store 操 作 
三” | 浮 点 操作 
地 址 部 件 | 操作 数 总 线 
6 
5 
4 
3 
3 
2 2 因 
1 
store 数 据 | “| store 地 址 
| 地 址 
存储 部 件 
公共 数据 总 线 (CDB) 


图 5.15 基于 Tomasulo 算法 的 支持 前 瞻 执 行 的 浮 点 部 件 结构 


(3) 数据 值 字段 : 用 来 保存 指令 前 上 腹 执行 的 结果 ,直到 指令 得 到 确认 。 

(4) 就 绪 字 段 : 指出 指令 是 否 已 经 完成 执行 并 且 数据 已 就 绪 。 

在 前 瞻 执 行 机 制 中 ,Tomasulo 算法 中 保留 站 的 换 名 功能 是 由 ROB 来 完成 的 。 但 在 指 
令 流出 到 开始 执行 期 间 ,仍然 需要 有 地 方 来 存放 运算 操作 码 和 操作 数 。 这 个 功能 仍 由 保留 
站 来 完成 。 由 于 每 条 指令 在 被 确认 前 ,在 ROB 中 都 有 相应 的 一 项 ,所 以 执行 结果 是 用 ROB 
项 的 编号 作为 标识 的 ,而 不 像 Tomasulo 算法 那样 是 用 保留 站 的 编号 。 这 就 要 求 在 保留 站 
中 记录 分 配给 该 指令 的 ROB 项 (编号 ) 。 

采用 前 瞻 执 行 机 制 后 ,指令 的 执行 步骤 如 下 (请 注意 : 这 些 步骤 是 在 Tomasulo 算法 的 
基础 上 改造 的 。 与 Tomasulo 算法 类 似 的 操作 就 不 予以 说 明了 ) 。 

(1) 流出 。 

从 浮 点 指令 队列 的 头 部 取 一 条 指令 .如 果 有 空闲 的 保留 站 ( 设 为 r) 且 有 空闲 的 ROB 项 
(〈 设 为 b) ,就 流出 该 指令 ,并 把 相应 的 信息 放 入 保留 站 r 和 ROB 项 b。 即 如 果 该 指令 需要 的 
操作 数 已 经 在 寄存 器 或 ROB 中 就 绪 , 就 把 它 ( 们 ) 送 入 保留 站 r 中 。 修 改 r 和 bb 的 控制 字 
段 ,表示 它们 已 经 被 占用 。ROB 项 b 的 编号 也 要 放 入 保留 站 r,: 以 便当 该 保留 站 的 执行 结果 
被 放 到 CDB 上 时 可 以 用 它 作为 标识 。 如 果 保 留 站 或 ROB 全 满 , 便 停止 流出 指令 ,直到 它们 
都 有 空闲 的 项 。 


a 


计算 胡 系 统 结 攀 裁 程 ( 茵 2 版 ) 


(2) 执行 。 

如 果 有 操作 数 尚 未 就 绪 , 就 等 待 ,并 不 断 地 监测 CDB。 这 一 步 检测 RAW 冲突 。 当 两 
个 操作 数 都 已 在 保留 站 中 就 绪 后 ,就 可 以 执行 该 指令 的 操作 。load 指令 的 操作 还 是 分 两 步 
完成 (有 效 地 址 计算 和 读 取 数据 ) ,store 指令 在 这 一 步 只 进行 有 效 地 址 计算 。 

(3) 写 结果 。 

当 结 果 产 生 后 ,将 该 结果 连同 本 指令 在 流出 段 所 分 配 到 的 ROB 项 的 编号 放 到 CDB 上 ， 
经 CDB 写 到 ROB 以 及 所 有 等 待 该 结果 的 保留 站 。 然 后 释放 产生 该 结果 的 保留 站 。store 
者 令 在 本 阶段 完成 ,其 操作 有 些 特殊 (与 Tomasulo 算法 不 同 ) : 如 果 要 写 人 存储 器 的 数据 已 
经 就 绪 , 就 把 该 数据 写 人 分 配给 该 store 指令 的 ROB 项。 否则 ,就 监测 CDB ,直到 那个 数据 
在 CDB 上 播送 出 来 , 才 将 之 写 和 分 配给 该 store 指令 的 ROB 项 。 

(4) 确认 。 

这 一 阶段 对 分 支 指令 ,store 指令 以 及 其 他 指令 的 处 理 不 同 。 

QO@ 对 于 除 分 支 指令 和 store 指令 以 外 的 指令 来 说 , 当 该 指令 到 达 ROB 队列 的 头 部 而 且 
其 结果 已 经 就 绪 时 ,就 把 该 结果 写 和 人 该 指令 的 目的 寄存 器 ,并 从 ROB 中 删除 该 指令 。 

@ 对 store 指令 的 处 理 与 类 似 , 只 是 它 是 把 结果 写 和 人 存储器。 

@ 当 预 测 错误 的 分 支 指令 到 达 ROB 队列 的 头 部 时 ,就 表示 是 错误 的 前 瞻 执 行 。 这 时 
要 清空 ROB ,并 从 分 支 指令 的 另 一 个 分 支 重 新 开始 执行 。 

@ 当 预 测 正确 的 分 支 指令 到 达 ROB 队列 的 头 部 时 ,该 指令 执行 完毕 。 

一 旦 指令 得 到 确认 ,就 释放 它 所 占用 的 ROB 项 。 当 ROB 满 时 ,就 停止 指令 的 流出 , 直 
到 有 空闲 项 被 释放 出 来 。 

例 5.4 假设 浮 点 功能 部 件 的 延迟 时 间 为 : 加 法 2 个 时 钟 周期 ,乘法 10 个 时 钟 周期 , 除 
法 40 个 时 钟 周期 。 对 于 下 面 的 代码 段 . 给 出 当 指令 MUL. D 即将 确认 时 的 状态 表 内 容 。 

工 .D FE6,34(E2) 

工 .D FE2,45(B3) 

MOL.D FO,F2,F4 

SUB.D FB8,F6,F2 

DIV.D 本 0,F0,F6 

ADD.D Fé6,F8,F2 

解 ” 状 态 表 的 内 容 如 图 5. 16 所 示 。 这 时 指令 SUB. D 尽管 已 经 执行 完毕 ,但 需要 等 到 
MUL.D 得 到 确认 后 才能 确认 。 保 留 站 和 寄存 器 状态 表 与 Tomasulo 算法 保存 的 信息 类 似 ， 
所 不 同 的 是 Qi 和 Qk 字段 以 及 寄存 器 状态 字段 中 存放 的 是 ROB 项 的 编号 ,而 不 是 保留 站 
的 编号 。 而 且 在 保留 站 中 增加 了 Dest 字段 。 这 个 Dest 字段 指出 是 哪个 ROB 项 将 接收 该 
保留 站 产生 的 结果 。#x 表示 ROB 项 zx 中 的 数值 字段 。 

图 中 ,ROB 中 的 两 条 load 指令 已 经 完成 , 放 在 那里 只 是 为 了 便于 理解 。 尽 管 SUB. D 
和 ADD.D 指令 还 没有 确认 (需要 等 MUL. D 先 确认 ) ,但 结果 已 经 产生 , 放 在 ROB 中 的 
Value 字段 ,可 以 用 作 其 他 指令 的 源 操 作 数 。 

通过 把 这 个 例子 与 图 5. 8 比较 ,可 以 看 到 前 瞻 执 行 和 Tomasulo 算法 的 一 个 重要 区 别 ， 
即 前 瞻 执 行 通过 增添 的 ROB 实现 了 指令 的 顺序 完成 .而 在 Tomasulo 算法 中 则 是 可 以 乱 序 
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第 

名 称 Busy Op Vi 站 Vk Qi | Qk | Dest | A 5 
Loadl no 是 
Load2 no 
Addl no 
Add2 no 
Add3 no 
Multl no MUL.D Mem[45+Regs[R3]] Regs[F4] #3 
Mult2 yes DIV.D Mem[34+Regs[R2]] #3 #5 
3 Buy 指 人 [下 和 的 Van 

1 | no L.D F6, 34(R2) | 确认 F6 Mem[34+Regs[R2]] 

2 | no LD F2,45(R3) ”| 确认 F2 Mem[45+Regs[R3]] 

3 |yes MUL.D ~ F0,F2,F4 | 写 结果 F0 #2xRegs[F4] 

4 yes SUB.D F8, F6, F2 | 写 结果 F8 #1—#2 

5 |yes DIV.D ~ F10,F0,F6 执行 F10 

6 |yes ADD.D Fé, Fs8,F2 写 结 F6 机 十 机 
ROB 项 编号 3 6 4 $ 

Busy | yes no no yes | yes yes | no 


图 5.16 前 瞻 执 行 中 MUL. D 确认 前 ,保留 站 和 ROB 的 状态 


完成 的 。 在 上 面 的 例子 中 ,MUL. D 是 第 一 条 尚未 确认 的 指令 ,其 后 的 指令 SUB. D,DIV. D， 
ADD. D 都 未 得 到 确认 。 虽 然 DIV. D 指令 是 因 其 执行 时 间 长 而 尚未 完成 执行 ,但 SUB. D 
和 ADD. D 都 已 完成 了 执行 (就 只 差 最 后 一 步 的 确认 了 ) ,它们 都 要 等 其 前 面 的 指令 都 确认 
后 ,才能 够 得 到 确认 。 而 在 图 5. 8 中 ,在 MUL. D 指令 即将 写 结果 时 ,SUB.D 和 ADD. D 指 
令 都 已 经 全 部 完成 了 ,是 乱 序 完 成 的 。 

由 于 前 瞻 执 行 通过 ROB 实现 了 指令 的 顺序 完成 ,所 以 它 不 仅 能 够 进行 前 瞻 执 行 ,而 且 
能 够 实现 精确 异常 。 在 上 述 例子 中 ,如 果 指 令 MUL. D 引起 异常 ,我 们 先 不 予 理 皮 , 等 到 它 
到 达 ROB 的 头 部 ,再 对 该 异常 进行 处 理 , 同 时 清除 所 有 正在 执行 的 指令 。 这 样 就 实现 了 精 
确 异 常 。 相 反 , 在 例 5. 3 的 Tomasulo 算 法 的 例子 中 ,SUB.D 和 ADD. D 指令 在 MUL.D 产 
生 异 常 之 前 就 早已 完成 ,F8 和 F6(SUB.D 和 ADD. D 指令 的 目的 寄存 器 ) 的 原 内 容 已 经 被 
覆盖 了 ,因而 这 个 异常 是 不 精确 的 。 

尽管 这 里 使 用 这 种 前 瞻 执 行 的 技术 是 针对 浮 点 的 , 它 可 以 很 容易 地 推广 到 整数 寄存 器 
和 整数 功能 单元 上 。 实 际 上 ,前瞻 执 行 对 于 整数 程序 更 有 效 , 因 为 这 些 程序 中 的 分 支 特征 更 
不 容易 预测 。 基 于 硬件 的 前 瞻 和 动态 调度 相 结合 .可 以 做 到 系统 结构 相同 但 实现 不 同 的 机 
器 能 够 使 用 相同 的 编译 器 。 

前 瞻 执 行 的 主要 缺点 是 : 所 需 的 硬件 太 复杂 。 与 Tomasulo 算法 相 比 ,在 控制 方面 复杂 
多 了 ,因而 在 控制 逻辑 硬件 方面 增加 了 许多 。 
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5.5 多 指令 流出 技术 


前 面 介绍 的 技术 能 够 减少 或 消除 数据 冲突 和 控制 冲突 导致 的 停顿 ,使 CPI 尽 可 能 往 
CPI=1 的 理想 情况 靠拢 。 但 由 于 所 考虑 的 只 是 单 流出 情况 ,CPI 不 可 能 小 于 1。 如 果 想 进 
一 步 提高 性 能 ,使 CPI 小 于 1, 就 必须 采用 多 流出 技术 (Multiple Issue) ,在 每 个 时 钟 周期 流 
出 多 条 指令 。 单 流出 和 多 流出 处 理 机 执行 指令 的 时 空 图 对 比如 图 5. 17 所 示 。 


多 流出 时 空 图 
1 2 3 4 5 6 7 


单 流出 时 空 图 Ll| IF | ID |EX |MEM| WB | 时钟 周 期 
1 到 3 4 5 6 7 b| IF |IPD | EX |IMEM| WB 
全 | IF | ID | EX MEM | wB | 时 名 周期 B| IF | ID | EX |MEM| WB 
D | ie | iw | Ex |mem| ws | FE | ID | Ex [Mem | we 
DB | IF | ID | EX [me™ | WB IF | ID | EX IMEM| wB 
IF | ID | EX IMEM| WB 


FE | | Ex |wsex| ws | 
F | 1D |Ex IMeM| wa | 
F | ID | Ex IMeM| we 


是 
指令 


图 5.17 单 流出 和 多 流出 处 理 机 执行 指令 的 时 空 图 


多 流出 处 理 机 有 两 种 基本 风格 : 超标 量 (superscalar)、 超 长 指令 字 (Very Long 
Instruction Word,VLIW)。 超 标量 在 每 个 时 钟 周期 流出 的 指令 条 数 不 固 定 , 依 代码 的 具体 
情况 而 定 ,不 过 有 个 上 限 。 如 果 这 个 上 限 为 ,就 称 该 处 理 机 为 n- 流 出 。 对 于 超标 量 处 理 
机 , 既 可 以 通过 编译 器 进行 静态 调度 ,也 可 以 基于 Tomasulo 算法 进行 动态 调度 。 静 态 调 度 
的 超标 量 处 理 机 一 般 采 用 按 序 执行 ,而 动态 调度 的 处 理 机 一 般 采 用 乱 序 执行 。 

虽然 超 流水 线 处 理 机 也 能 在 一 个 时 钟 周期 内 流出 多 条 指令 ,但 这 些 指令 是 分 时 流出 的 。 
与 超标 量 和 VLIW 的 同时 流出 还 是 不 同 的 。 

与 超标 量 处 理 机 不 同 , 超 长 指令 字 (VLIW) 处 理 机 在 每 个 时 钟 周 期 流出 的 指令 条 数 是 
固定 的 ,这 些 指令 构成 一 条 长 指令 或 者 一 个 指令 包 , 在 这 个 指令 包 中 ,指令 之 间 的 并 行 性 是 
通过 指令 显 式 地 表示 出 来 的 。 这 种 处 理 机 的 指令 调度 由 编译 器 静态 完成 。 

与 VLIW 处 理 机 相 比 ,超标 量 处 理 机 有 两 个 优点 : 

(1) 超标 量 结构 对 程序 员 是 透明 的 ,处 理 机 能 自己 检测 下 一 条 指令 是 否 能 流出 ,不 需要 
由 编译 器 或 专门 的 变换 程序 对 程序 中 的 指令 进行 重新 排列 ; 

(2) 即使 是 没有 经 过 编译 器 针对 超标 量 结构 进 行 调度 优化 的 代码 或 是 旧 的 编译 器 生成 
的 代码 也 可 以 运行 ,当然 运行 的 效果 不 会 很 好 。 要 想 达 到 很 好 的 效果 ,方法 之 一 就 是 使 用 动 
态 超标 量 调度 技术 。 

表 5.2 列 出 了 一 些 基 本 的 多 流出 技术 、 这 些 技术 的 特点 以 及 采用 这 些 技术 的 处 理 机 
实例 。 
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表 5.2 各 种 多 流出 技术 的 特点 以 及 采用 这 些 技术 的 处 理 机 


技 术 流出 结构 | 冲突 检测 调 度 主要 特点 处 理 机 实例 
超标 量 ( 静 态 ) | 动态 硬件 静态 按 序 执行 Sun UltraSPARCT /机 
超标 量 ( 动 态 ) | 动态 硬件 动态 部 分 乱 序 执行 ”| IBM Power2 


Pentium 出 /4,MIPS RIOK， 


带 有 前 瞻 的 | 带 有 前 瞻 的 乱 序 | Alpha 21264, HP PA 8500 


超标 量 ( 前 瞻 ) | 动态 硬件 


动态 调度 。 | 执行 IBM RS64 相 
VLIW/LIW | 静态 软件 静态 ee Trimedia,i860 
i i 相关 性 被 编译 器 3 
EPIC 主要 是 静态 | 主要 是 软件 | 主要 是 静态 显 式 地 标记 出 来 | Itanium 


5.5.1 基于 静态 调度 的 多 流出 技术 


典型 的 超标 量 处 理 机 每 个 时 钟 周期 可 流出 1 一 8 条 指令 。 在 静态 调度 的 超标 量 处 理 机 
中 ,指令 按 序 流出 。 所 有 的 冲突 检测 都 在 流出 时 进行 ,由 硬件 检测 当前 流出 的 指令 之 间 是 否 
存在 冲突 以 及 当前 流出 的 指令 与 正在 执行 的 指令 是 否 有 冲突 。 如 果 在 当前 流出 的 指令 序列 
中 , 某 条 指令 存在 着 上 述 冲突 ,那么 就 只 流出 该 指令 之 前 的 指令 。 

考虑 一 个 4- 流 出 的 静态 调度 超标 量 处 理 机 。 在 取 指 令 阶段 ,流水 线 将 从 取 指 令 部 件 收 
到 1 一 4 条 指令 ,在 一 个 时 钟 周期 内 ,这 些 指令 有 可 能 全 部 都 能 流出 ,也 可 能 只 有 一 部 分 能 流 
出 。 我 们 不 妨 把 这 些 指 令 称 为 流出 包 。 对 于 流出 包 中 的 任意 一 条 指令 来 说 ,如 果 该 指令 的 
流出 会 与 该 流出 包 或 者 与 已 经 在 执行 的 某 条 指令 产生 结构 冲突 或 者 数据 冲突 ,那么 该 指令 
就 不 能 流出 。 这 些 检 测 是 由 流出 部 件 完成 的 。 

由 于 这 些 检测 比较 复杂 ,难以 在 一 个 时 钟 周期 内 完成 ,所 以 在 许多 静态 调度 的 超标 量 处 
理 机 和 所 有 动态 调度 的 超标 量 处 理 机 中 ,都 是 将 之 分 成 多 个 流水 段 , 按 流水 方式 工作 。 例 
如 ,可 以 让 第 一 个 段 只 进行 流出 包 内 的 冲突 检测 , 选 出 初步 判定 可 以 流出 的 指令 ,然后 在 第 
二 段 检测 所 选 出 的 指令 与 正在 执行 的 指令 是 否 有 冲突 。 

当 要 提高 指令 流出 的 速率 时 ,指令 流出 段 有 可 能 会 成 为 指令 流水 线 的 瓶颈 。 虽 然 把 流 
出 段 拆 分 为 两 段 还 是 比较 直观 的 ,但 如 何 进一步 分 段 就 不 是 那么 明显 了 。 所 以 ,指令 流出 段 
很 可 能 会 成 为 限制 超标 量 处 理 机 的 时 钟 频率 提高 的 一 个 因素 。 

如 果 MIPS 处 理 机 按 超标 量 方式 工作 ,结果 将 会 怎样 ? 假设 每 个 时 钟 周期 可 以 流出 两 
条 指令 :“1 条 整数 型 指令 十 1 条 浮 点 操作 指令 ”, 其 中 把 load 指令 、store 指令、 分 支 指令 也 
归 类 为 整数 型 指令 。 与 任意 的 双流 出 相 比 ,把 整数 指令 和 浮 点 指令 结合 流出 是 简单 了 不 少 ， 
对 硬件 的 要 求 也 没 那么 高 。 这 种 配置 和 HP 7100 处 理 机 中 采用 的 结构 很 类 似 , Intel 的 
Pentium 也 有 类 似 的 结构 ,只 不 过 它 是 针对 整数 运算 的 两 路 超标 量 。 

为 了 实现 每 个 时 钟 周期 流出 两 条 指令 ,显然 要 能 够 同时 取 两 条 指令 (64 位 ), 也 要 能 同 
时 译 码 两 条 指令 (64 位 )。 对 指令 的 处 理 包 括 以 下 步骤 : 四 从 Cache 中 取 两 条 指令 ; 加 确定 
哪些 指令 可 以 流出 (0 一 2 条 指令 ); 图 把 它们 发 送 到 相应 的 功能 部 件 。 取 两 条 指令 还 比较 
容易 实现 , 若 要 取 更 多 的 指令 ,所 要 进行 的 处 理 就 复杂 多 了 。 高 性 能 超标 量 处 理 机 一 般 是 依 
靠 一 个 独立 的 指令 预 取 部 件 来 提供 足够 的 指令 流 。 
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对 于 上 述 简单 的 超标 量 处 理 机 来 说 ,冲突 检测 还 比较 简单 ,因为 “1 条 整数 型 指令 十 1 条 
浮 点 指令 ”的 流出 方式 消除 了 大 多 数 流 出 包 内 的 冲突 。 主 要 的 难点 出 现在 当 整 数 型 指令 是 
一 条 浮 点 load store 或 move 指令 的 情况 。 这 时 有 可 能 会 出 现 争 用 浮 点 寄存 器 端口 或 者 产 
生 新 的 RAW 冲突 。 

在 这 个 双流 出 超标 量 处 理 机 中 ,指令 执行 的 时 空 图 如 图 5. 18 所 示 。 其 中 假设 所 有 的 浮 
点 指令 都 是 加 法 指令 ,其 执行 时 间 为 两 个 时 钟 周期 。 为 简单 起 见 ,图 中 总 是 把 整数 指令 放 在 
浮 点 指令 的 前 面 , 但 实际 上 也 可 能 是 浮 点 指令 在 前 面 。 从 图 中 可 以 看 出 ,在 每 个 时 钟 周期 ， 
并 行 流出 一 条 整数 型 指令 和 一 条 浮 点 指令 ,它们 分 别 在 各 自 的 流水 线 上 流动 。 


指令 类 型 流水 线 工作 情况 

整数 指令 IF ID EX | MEM | WB 

浮 点 指令 IF ID EX EX | MEM | WB 

整数 指令 IF ID EX | MEM | WB 

浮 点 指令 IF ID EX EX | MEM | WB 
整数 指令 IF ID EX | MEM | WB 

浮 点 指令 IF ID FX FX | MFM | WR 
整数 指令 IF ID EX | MEM | WB 
浮 点 指令 IF ID EX EX | MEM 


图 5.18 双流 出 超标 量 流水 线 中 指令 的 执行 过 程 


这 个 双流 出 超标 量 处 理 机 大 大 提高 了 浮 点 指令 流出 的 速率 。 与 此 相 匹配 ,还 要 提高 其 
浮 点 运算 能 力 , 可 以 采用 流水 浮 点 运算 部 件 或 采用 多 个 独立 的 浮 点 运算 部 件 。 否 则 , 浮 点 部 
件 会 成 为 整 条 流水 线 的 瓶颈 ,丧失 双流 出 带 来 的 好 处 。 

采用 “1 条 整数 型 指令 十 1 条 浮 点 指令 ?并 行 流出 的 方式 ,需要 增加 的 硬件 很 少 。 这 是 因 
为 整数 指令 和 浮 点 指令 使 用 不 同 的 寄存 器 组 和 不 同 的 功能 部 件 。 那 么 ,到 底 需 要 增加 怎样 
的 硬件 呢 ? 首先 ,冲突 检测 逻辑 电路 的 增加 是 少不了 的 。 其 次 ,是 把 所 有 load 和 store 指令 
归 类 到 整数 型 指令 中 ,所 以 会 出 现 浮 点 load 或 浮 点 store 指令 与 浮 点 操作 指令 并 行 流出 的 
情况 ,这 会 导致 对 浮 点 寄存 器 的 访问 冲突 。 因 此 需要 给 浮 点 寄存 器 增设 一 个 读 / 写 端口 。 还 
有 ,由 于 流水 线 中 的 指令 多 了 一 倍 ,定向 路 径 也 要 增加 。 

另外 还 有 一 个 障碍 限制 了 超标 量 流水 线 的 性 能 发 挥 。 在 前 述 5 段 流水 线 中 ,load 指令 
有 一 个 时 钟 周期 的 延迟 ,这 就 使 得 紧 跟 其 后 ,并 使 用 其 结果 的 指令 要 停顿 一 个 时 钟 周期 后 才 
可 以 流出 。 在 超标 量 流水 线 中 ,load 指令 的 结果 显然 不 能 被 同时 流出 的 指令 所 使 用 ,也 不 
能 被 下 一 个 周期 流出 的 两 条 指令 所 使 用 ( 因 load 的 延迟 ) 。 为 避免 引起 停顿 ,load 后 续 三 条 
指令 都 不 能 使 用 其 结果 。 再 来 看 看 分 支 延迟 。 在 前 述 5 段 流水 线 中 ,分 支 延 迟 为 一 个 时 钟 
周期 。 如 果 分 支 指令 是 流出 包 中 的 第 一 条 指令 , 则 其 延迟 是 三 个 时 钟 周期 ;否则 就 是 流出 包 
中 的 第 二 条 指令 ,其 延迟 就 是 两 个 时 钟 周期 。 

为 了 能 有 效 地 利用 超标 量 处 理 机 所 具有 的 并 行 性 ,需要 采用 更 有 效 的 编译 技术 或 者 硬 
件 调度 技术 。 如 果 不 采用 这 些 技术 ,超标 量 技术 所 能 带 来 的 性 能 上 的 提高 可 能 很 有 限 。 


5.5.2 基于 动态 调度 的 多 流出 技术 
在 多 流出 处 理 机 中 ,动态 调度 技术 是 提高 性 能 的 一 种 方法 。 动 态 调度 不 仅 拥有 能 解决 


指 们 级 立行 及 其 开发 一 -硬件 方 法 


数据 冲突 和 提高 性 能 的 典型 优点 ,而 且 还 有 可 能 克服 指令 流出 所 受 的 限制 。 尽 管 从 硬件 的 
角度 来 看 ,在 每 个 时 钟 周期 最 多 只 能 启动 一 个 整数 操作 和 一 个 浮 点 操作 的 执行 ,但 动态 调度 
可 以 使 得 在 指令 流出 时 不 受 这 个 限制 ,至 少 在 保留 站 被 全 部 占用 之 前 是 如 此 。 

假设 要 对 Tomasulo 算法 进行 扩展 ,使 之 能 支持 双流 出 超标 量 流 水 线 。 但 又 不 想 乱 序 
地 向 保留 站 流出 指令 ,因为 这 会 破坏 程序 语义 。 为 了 充分 利用 动态 调度 的 好 处 ,也 许 应 该 去 
掉 每 个 时 钟 周期 只 能 流出 一 条 整数 指令 和 一 条 浮 点 操作 指令 的 限制 。 但 这 会 大 大 增加 指令 
流出 的 硬件 复杂 度 。 

可 以 采用 另 一 种 比较 简单 的 方法 : 将 整数 所 用 的 表 结 构 与 浮 点 用 的 表 结 构 分 离开 ,分 
别 进行 处 理 , 这 样 就 可 以 同时 流出 一 条 浮 点 指令 和 一 条 整数 指令 到 各 自 的 保留 站 。 

在 采用 动态 调度 的 处 理 机 中 ,有 两 种 不 同 的 方法 可 以 用 来 实现 多 流出 。 它 们 都 是 建立 
在 这 样 一 个 观点 之 上 的 : 动态 调度 关键 在 于 对 保留 站 的 分 配 和 对 流水 线 控制 表格 的 修改 。 
一 种 方法 是 在 半 个 时 钟 周期 里 完成 流出 步骤 ,这 样 一 个 时 钟 周期 就 能 处 理 两 条 指令 。 另 一 
种 方法 是 设置 一 次 能 同时 处 理 两 条 指令 的 逻辑 电路 。 现 代 的 流出 4 条 或 4 条 以 上 指令 的 超 
标量 处 理 机 经 常 是 综合 采用 这 两 种 方法 的 , 即 不 仅 采用 流水 ,而 且 还 把 流出 电路 加 宽 。 

例 5.5 对 于 采用 了 Tomasulo 算 法 和 多 流出 技术 的 MIPS 流水 线 , 考 虑 以 下 简单 循环 
的 执行 。 该 程序 把 F2 中 的 标量 加 到 一 个 向 量 的 每 个 元 素 上 。 


Loop: L.D FO,0(R1) // 取 一 个 数组 元 素 放 入 FO 
RDD.D ~ F4,F0,F2 // 加 上 在 到 中 的 标量 
sD F4,0(R1) // 存 结果 
DRDDIU Rl,R1,#-8 // 指 针 减 8 每 个 数据 占 8 个 字 节 ) 
EE RL,F2,Ioop // 车 也 不 等 于 R2, 表 示 尚 未 结束 ,转移 
// 到 Ioop 继 续 
现 做 以 下 假设 : 


(1) 每 个 时 钟 周期 能 流出 一 条 整数 指令 和 一 条 浮 点 指令 ,即使 它们 相关 也 是 如 此 。 

(2) 整数 ALU 运算 和 地 址 计算 共用 一 个 整数 部 件 ;并 且 对 于 每 一 种 浮 点 操作 类 型 都 有 
一 个 独立 的 流水 化 了 的 浮 点 功能 部 件 。 

(3) 指令 流出 和 写 结果 各 占用 一 个 时 钟 周期 。 

(4) 具有 动态 分 支 预测 部 件 和 一 个 独立 的 计算 分 支 条 件 的 功能 部 件 。 

(5) 跟 大 多 数 动态 调度 处 理 器 一 样 , 写 回 段 的 存在 意味 着 实际 的 指令 延迟 会 比 按 序 流 
动 的 简单 流水 线 多 一 个 时 钟 周期 。 所 以 ,从 产生 结果 数据 的 源 指令 到 使 用 该 结果 数据 的 指 
令 之 间 的 延迟 为 : 整数 运算 一 个 周期 ,load 两 个 周期 , 浮 点 加 法 运算 三 个 周期 。 

@ 请 列 出 该 程序 前 面 三 个 循环 中 各 条 指令 的 流出 ` 开 始 执行 和 将 结果 写 到 CDB 上 的 时 间 。 

@ 如 果 分 支 指令 单 流出 ,没有 采用 延迟 分 支 , 但 分 支 预测 是 完美 的 。 请 列 出 整数 部 件 、 
浮 点 部 件 .数据 Cache 以 及 CDB 的 资源 使 用 情况 。 

解 ”执行 时 ,该 循环 将 动态 展开 ,并 且 只 要 可 能 就 流出 两 条 指令 。 表 5. 3 列 出 了 各 指令 
执行 到 几 个 操作 点 的 时 间 。 表 5.4 则 给 出 了 资源 的 使 用 情况 。 可 以 看 出 ,每 三 个 时 钟 周 期 
就 执行 一 个 新 循环 ,每 个 循环 5 条 指令 .因此 其 IPC 为 5/3 王 1. 67。 虽 然 指令 的 流出 率 比 较 
高 ,但 是 执行 效率 并 不 是 很 高 ,16 拍 共 执行 15 条 指令 ,平均 指令 执行 速度 为 15/16 王 0. 94 
条 / 拍 。 
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表 5.3 基于 Tomasulo 算法 的 双流 出 超标 量 流 水 线 中 指令 的 流出 .执行 和 写 CDB 的 时 间 


遍 数 指 令 流出 | 执行 | 访 存 | 写 CDB 说 明 
i | F0,0(R1) 1 2 ” 4 流出 第 一 条 指令 
1 |ADD.D  F4,F0,F2 1 5 8 等 待 L.D 的 结果 
下 | 总 而 F4,0(R1) 3 3 9 等 待 ADD. D 的 结果 
1 | DADDIU R1,R1,# 一 8 | 2 4 5 et be 
1 | BNE R1,R2,Loop 3 6 等 待 DADDIU 的 结果 
2 | 种 F0,0(R1) 4 7 8 9 等 待 BNE 完成 
2 | ADD.D  F4,F0,F2 4 | 10 13 等 待 L.D 的 结果 
2 | S.D F4,0(R1) 5 8 | 14 等 待 ADD. D 的 结果 
2 | DADDIU Rl1,R1,# 一 8 | 5 9 10 等 待 ALU 
2 | BNE R1,R2,Loop 6 11 等 待 DADDIU 的 结果 
人 11 FO0,0(R1) 多 12 13 14 等 待 BNE 完成 
3 |ADD.D  F4,F0,F2 和 15 18 等 待 L.D 的 结果 
3 | S.D F4,0(R1) 8 13 19 等 待 ADD. D 的 结果 
3 | DADDIU RI1,R1,#—8 8 14 15 等 待 ALU 
3 | BNE R1,R2,Loop 9 16 等 待 DADDIU 的 结果 


表 5.4 资源 使 用 情况 


时 钟 周期 整 型 ALU 浮 点 ALU 数据 Cache CDB 
2 了 让 
3 1/S.D 1/L.D 
4 1/DADDIU 1 
5 1/ADD.D 1/DADDIU 
6 
7 2/L:D 
8 2/S.D 2 区 1/ADD.D 
9 2/DADDIU 1/S.D 2 
10 2/ADD.D 2/DADDIU 
11 
12 3/L.D 
13 3/S.D 3/L.D 2/ADD.D 
14 3/DADDIU 2/S.D ED 
15 3/ADD.D 3/DADDIU 
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续 表 

时 钟 周期 整 型 ALU 浮 点 ALU 数据 Cache CDB 

16 

17 

18 3/ADD.D 

19 3/S.D 

20 
说 明 : 


(1) store 和 分 支 指令 不 经 过 写 结果 段 , 因 为 它们 不 写 寄存 器 。 

(2) 对 于 load 和 store 来 说 ,在 执行 段 进 行 有 效 地 址 计算 。 

(3) 对 于 分 支 指令 来 说 ,在 执行 段 进行 转移 条 件 判 定 , 并 检测 分 支 预 测 是 否 正确 。 假 设 
它 所 用 的 操作 数 一 旦 就 绪 , 就 可 以 立即 执行 。 

(4) 请 注意 : 下 一 个 循环 迭代 中 的 load 指令 比 当前 迭代 的 store 指令 先 访问 存储 器 。 

在 上 述 这 个 例子 中 ,将 其 吞吐 率 与 单 流出 流水 线 相 比 较 , 超 标量 方法 的 改进 不 大 。 其 原 
因 是 浮 点 运算 少 ,ALU 部 件 成 了 瓶颈 。 

为 解决 这 个 问题 ,可 以 考虑 在 此 结构 的 基础 上 增加 一 个 加 法 器 ,把 ALU 功能 和 地 址 运 
算 功能 分 开 。 不 过 ,这 样 做 会 出 现 多 条 指令 同时 写 CDB 的 情况 ,也 就 是 出 现 了 CDB 竞争 。 
在 增加 了 一 条 CDB 以 后 ,竞争 消失 。 但 这 已 经 在 原 有 结构 的 基础 上 增加 了 大 量 的 硬件 , 系 
统 开 始 变 得 很 复杂 了 。 

解决 这 个 问题 的 另 一 种 办 法 是 采用 第 6 章 介绍 的 编译 技术 。 

上 述 双 流出 动态 调度 流水 线 的 性 能 受 限于 以 下 三 个 因素 : 

(1) 整数 部 件 和 浮 点 部 件 的 工作 负载 不 平衡 ,没有 充分 发 挥 出 浮 点 部 件 的 作用 。 应 该 
设法 减少 循环 中 整数 型 指令 的 数量 。 

(2) 每 个 循环 迭代 中 的 控制 开销 太 大 。5 条 指令 中 有 两 条 指令 是 辅助 指令 。 应 该 设法 
减少 或 消除 这 些 指 令 。6. 1 节 中 将 介绍 减少 这 种 开销 的 方法 。 

(3) 控制 相关 使 得 处 理 机 必须 等 到 分 支 指令 的 结果 出 来 后 才能 开始 下 一 条 LD 指令 的 
执行 。 采 用 5.4. 3 中 的 前 瞻 执 行 可 以 解决 这 个 问题 。 


5.5.3 超 长 指令 字 技 术 


下 面 只 做 简单 的 介绍 。 更 详细 的 论述 见 6. 3 节 。 

超 长 指令 字 (Very Long Instruction Word,VLIW) 技 术 是 另 一 种 多 指令 流出 技术 。 与 
超标 量 不 同 , 它 在 指令 流出 时 不 需要 进行 复杂 的 冲突 检测 ,而 是 依靠 编译 器 全 部 安排 好 了 。 
在 编译 时 ,编译 器 找 出 指令 之 间 潜 在 的 并 行 性 ,并 通过 指令 调度 把 可 能 出 现 的 数据 冲突 减少 
到 最 少 ,最 后 把 能 并 行 执行 的 多 条 指令 组 装 成 一 条 很 长 的 指令 。 这 种 指令 字 经 常 是 一 百 多 
位 到 几 百 位 的 , 超 长 指令 字 因 此 得 名 。 

在 VLIW 处 理 机 中 一 般 设置 有 多 个 功能 部 件 。 相 应 地 ,指令 字 也 被 分 割 成 一 些 字段 ， 
每 个 字段 称 为 一 个 操作 槽 ,直接 独立 地 控制 一 个 功能 部 件 。 为 了 使 功能 部 件 充分 忙碌 ,程序 
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指令 序列 中 应 有 足够 的 并 行 性 ,从 而 尽量 填 满 每 个 操作 槽 。 这 种 并 行 性 是 完全 依靠 编译 器 
来 挖掘 的 。 它 不 需要 超标 量 处 理 机 中 用 于 指令 流出 控制 的 硬件 ,因而 控制 硬件 比较 简单 。 
特别 是 当 流 出 宽度 增加 时 ,VLIW 技术 的 优点 更 加 明显 。 

当然 ,VLIW 也 存在 一 些 问题 ,包括 : 

(1) 程序 代码 长 度 增 加 了 。 

有 两 个 因素 导致 代码 长 度 的 增加 ,一 个 是 为 了 提高 并 行 性 而 进行 的 大 量 的 循环 展开 , 另 
一 个 是 指令 字 中 的 操作 槽 并 非 总 能 填 满 。 虽 然 编 译 器 会 尽量 使 各 操作 部 件 充 分 忙碌 ,但 总 
会 出 现 无 法 安排 指令 到 操作 部 件 执行 的 情况 ,这 时 指令 字 中 与 该 操作 部 件 对 应 的 操作 覃 就 
没有 被 利用 起 来 ,这 会 造成 空间 上 的 浪费 。 

为 了 解决 这 个 问题 ,可 采用 指令 共享 立即 数字 段 的 方法 ,或 者 采用 “指令 压缩 存储 -调和 
Cache 或 译 码 时 展开 ”的 方法 。 

(2) 采用 了 锁 步 机 制 。 

由 于 没有 冲突 检测 硬件 ,早期 的 VLIW 都 采用 了 锁 步 机 制 (lockstep)。 即 任何 一 个 操 
作 部 件 出 现 停顿 时 ,整个 处 理 机 都 要 停顿 ,这 是 因为 所 有 的 功能 部 件 都 是 同步 操作 的 。 当 指 
令 流出 速率 和 访 存 数量 增加 很 多 时 ,这 个 同步 限制 条 件 就 变 得 让 人 无 法 接受 了 。 在 新 近 的 
VLIW 人 处理 机 中 ,各 功能 部 件 有 更 多 的 独立 性 。 可 以 通过 设置 适当 的 硬件 动态 检测 机 制 ,来 
允许 指令 流出 后 的 非 同 步 执 行 。 

(3) 机 器 代码 的 不 兼容 性 。 

在 VLIW 中 ,编译 生成 代码 时 ,是 充分 利用 了 指令 系统 的 特点 以 及 具体 流水 线 结构 的 
细节 (如 指令 流出 数目 、 功 能 单元 延迟 时 间 等 都 不 同 ) 来 进行 优化 的 ,所 以 在 不 同 配置 的 
VLIW 机 器 中 ,机 器 代码 差别 很 大 。 即 使 是 同一 系列 的 VLIW 机 器 也 难以 实现 机 器 代码 的 
兼容 。 而 超标 量 处 理 机 在 这 方面 则 好 很 多 。 

为 了 解决 这 个 问题 ,可 以 采用 机 器 代码 翻译 或 者 仿真 的 方法 。 这 两 种 方法 实际 上 是 解 
决 所 有 移植 问题 的 通用 方法 。 


5.5.4 多 流出 处 理 器 受到 的 限制 


多 指令 流出 处 理 器 受 哪些 因素 的 限制 呢 ? 既然 每 个 时 钟 周 期 可 以 流出 5 条 指令 , 那 为 
什么 不 能 流出 更 多 条 呢 ? 实际 上 ,处 理 器 中 指令 的 流出 能 力 是 有 限 的 , 它 主 要 受 以 下 三 个 方 
面 的 影响 

(1) 程序 所 固有 的 指令 级 并 行 性 ; 

(2) 硬件 实现 上 的 困难 ; 

(3) 超标 量 和 超 长 指令 字 处 理 器 固有 的 技术 限制 。 

其 中 ,第 一 个 限制 是 最 简单 的 也 是 最 根本 的 因素 。 对 于 流水 线 处 理 器 .需要 有 大 量 可 并 
行 执行 的 操作 才能 避免 流水 线 出 现 停顿 。 如 果 浮 点 流水 线 的 延迟 为 5 个 时 钟 周期 ,要 使 该 
浮 点 流水 线 不 停顿 ,就 必须 有 5 条 无 相关 的 浮 点 指令 。 通 常情 况 下 ,所 需要 的 无 相关 指令 数 
等 于 流水 线 的 深度 乘 以 可 以 同时 工作 的 功能 部 件数 。 例 如 要 使 具有 5 个 功能 部 件 的 流水 线 
充分 忙碌 ,大 约 需要 连续 15 一 25 条 无 相关 指令 。 

第 二 个 限制 ,是 多 流出 的 处 理 器 需要 大 量 的 硬件 资源 。 因 为 每 个 时 钟 周期 不 仅 要 流出 
多 条 指令 ,而 且 还 要 执行 它们 。 随 着 每 个 时 钟 周 期 流出 指令 数 的 增加 ,所 需 的 硬件 成 正比 例 
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地 增长 ,这 包括 控制 流出 的 硬件 、 整 数 运算 部 件 和 浮 点 运算 部 件 等 。 同 时 ,所 需 的 存储 器 带 
宽 和 寄存 器 带宽 也 大 大 增加 了 ,这样 的 带宽 要 求 必然 导致 大 量 增加 硅 片 面积 ,而 加 大 面积 会 
导致 时 钟 频率 下 降 、 功 耗 增加 、 可 靠 性 降低 等 一 系列 问题 。 

如 果 要 使 流出 指令 的 数目 增加 ,就 需要 进一步 增加 更 多 的 存储 器 端口 。 这 时 ,只 增加 运 
算 部 件 是 没 用 的 ,因为 这 时 处 理 器 受 限于 存储 器 的 带宽 。 多 端口 .层次 化 的 存储 系统 带 来 的 
系统 复杂 性 和 访问 延迟 ,可 能 是 指令 多 流出 技术 所 面临 的 最 严重 的 硬件 的 限制 。 

多 指令 流出 所 需 的 硬件 量 随 实现 方法 的 不 同 有 很 大 的 差别 。 一 个 极端 是 动态 调度 的 超 
标量 处 理 器 ,无论 采用 记分 牌 技术 还 是 Tomasulo 算法 ,都 需要 大 量 的 硬件 ,而 且 动 态 调度 
也 大 大 增加 了 设计 的 复杂 性 ,使 提高 时 钟 频率 更 加 困难 。 另 一 个 极端 是 VLIW 处 理 器 , 指 
令 的 流出 和 调度 仅 需要 很 少 甚至 不 需要 额外 的 硬件 ,因为 这 些 工 作 全 都 由 编译 器 完成 。 这 
两 种 极端 之 间 是 现存 的 多 数 超标 量 处 理 器 ,它们 将 编译 器 的 静态 调度 和 硬件 的 动态 调度 机 
制 结 合 起 来 ,共同 决定 可 同时 并 行 流出 的 指令 数 。 设 计 多 流出 处 理 器 的 主要 难点 是 : 访 存 
的 开销 、 硬 件 的 复杂 性 和 编译 器 技术 的 难度 。 各 个 因素 的 权衡 和 技术 的 取舍 ,往往 取决 于 设 
计 人 员 认 为 它们 对 性 能 有 多 大 影响 。 


5.5.5 超 流水 线 处 理 机 


在 第 3 章 介 绍 的 流水 处 理 机 中 ,是 把 一 条 指令 的 执行 过 程 分 解 为 取 指 令 . 译 码 .执行 . 访 
存 、 写 结果 5 个 流水 段 。 如 果 把 其 中 的 每 个 流水 段 进一步 细 分 ,例如 ,分 解 为 两 个 延迟 时 间 
更 短 的 流水 段 , 则 一 条 指令 的 执行 过 程 就 要 经 过 10 个 流水 段 。 这 样 ,在 一 个 时 钟 周 期 内 , 取 
指令 . 译 码 .执行 . 访 存 . 写 结果 等 各 段 都 在 处 理 各 自 的 两 条 指令 。 这 种 在 一 个 时 钟 周期 内 能 
够 分 时 流出 多 条 指令 的 处 理 机 称 为 超 流水 线 处 理 机 (superpipelining ) 。 

前 面 介 绍 的 超标 量 处 理 机 是 通过 重复 设置 多 份 硬件 来 提高 性 能 的 , 即 设置 多 个 取 指 部 件 ， 
设置 多 个 译 码 ,执行 , 访 存 、 写 结果 等 部 件 ,并 让 它们 同时 工作 。 它 需要 增加 比较 多 的 硬件 。 而 
超 流水 线 处 理 机 则 不 同 , 它 只 需要 增加 少量 硬件 ,是 通过 各 部 分 硬件 的 充分 重 又 工作 来 提高 性 
能 的 。 超 标量 处 理 机 采用 的 是 空间 并 行 性 ,而 超 流水 线 处 理 机 采用 的 是 时 间 并 行 性 。 

对 于 一 台 每 个 时 钟 周期 能 流出 n 条 指令 的 超 流 水 线 计 算 机 来 说 ,这 n 条 指令 不 是 同时 
流出 的 ,而 是 每 隔 1/n 个 时 钟 周期 流出 一 条 指令 。 因 此 ,实际 上 该 超 流水 线 计算 机 的 流水 线 
周期 为 1/n 个 时 钟 周期 。 图 5. 19 是 一 台 每 个 时 钟 周期 分 时 流出 两 条 指令 的 超 流水 线 计 算 
机 的 时 空 图 。 该 图 只 是 超 流水 线 计算 机 原理 上 的 指令 执行 时 空 图 。 实 际 上 ,流水 段 还 要 进 
一 步 细 分 ,将 一 个 流水 段 再 细 分 为 多 个 流水 级 (在 本 小 节 , 用 流水 “级 "来 表示 流水 “ 段 " 进 一 
步 细 分 后 的 结果 ) ,每 一 个 流水 级 也 都 有 名 称 。 在 分 解 流水 段 时 ,根据 实际 情况 ,各 段 的 级 数 
可 以 多 少 不 一 。 例 如 将 取 指令 段 再 细 分 为 “ 取 指 1”“ 取 指 2” 两 个 级 ,把 译 码 段 再 细 分 为 “ 译 
码 ”"“ 取 操作 数 ?两 个 级 等 ,而 WB 段 一 般 不 再 细 分 。 在 有 的 资料 中 ,把 指令 流水 线 级 数 为 8 
或 8 以 上 的 流水 线 处 理 机 称 为 超 流水 线 处 理 机 。 

在 目前 大 量 使 用 的 微 处 理 器 中 .SGI 公 司 的 MIPS 系列 R4000 是 典型 的 超 流水 线 处 理 
器 。R4000 微 处 理 器 芯片 内 有 两 个 Cache: 指令 Cache 和 数据 Cache. 容 量 都 是 8KB., 每 个 
Cache 的 数据 宽度 为 64 位 。 

整数 部 件 是 R4000 的 核心 处 理 部 件 , 它 主要 包括 一 个 32X 32 位 的 通用 寄存 器 组 ,一 个 
算术 人 逻辑 部 件 (ALU) ,一 个 专用 的 乘法 /除法 部 件 。 整 数 部 件 负责 取 指 令 ,整数 操作 的 译 码 
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和 执行 ,load/store 操作 的 执行 等 。 通 用 寄存 器 组 有 两 个 输出 端口 和 一 个 输入 端口 ,用 于 标 
量 整数 操作 和 地 址 计算 ,并 设置 专用 的 数据 通路 ,可 以 对 每 一 个 寄存 器 读 / 写 两 次 。 算 术 退 
辑 部 件 包括 一 个 整数 加 法 器 和 一 个 逻辑 部 件 ,负责 执行 算术 运算 操作 、 地 址 运算 和 所 有 的 移 
位 操作 。 乘 法 /除法 部 件 能 够 执行 32 位 带 符号 和 不 带 符号 的 乘法 或 除法 操作 , 它 可 以 和 
ALU 部 件 并 行 地 执行 指令 。 
1 2 3 4 5 6 7 
1 FE [Tsx [Mev we 时 钟 周期 
b| 正 ID EX | MEM | WB 
us| wr [| ww [ex [MEM | we 
ul 1 | ww | ex [mev [ we | 
sl FE [| iD | Ex [MEM | we 
tl FF [| ww [Ex [MeM | we 
DLL Ir | wD | Ex | MeM | we 


图 5.19 超 流水 线 处 理 机 的 指令 执行 时 空 图 


浮 点 部 件 包括 一 个 执行 部 件 和 一 个 16X 64 位 的 浮 点 通用 寄存 器 组 。 浮 点 通用 寄存 器 
组 也 可 以 设置 成 32 个 32 位 的 浮 点 寄存 器 。 浮 点 执行 部 件 由 浮 点 乘法 部 件 、 浮 点 除法 部 件 
和 浮 点 加 法 /转换 / 求 平方 根部 件 三 个 独立 的 部 件 组 成 ,它们 可 以 并 行 工作 。 

R4000 的 指令 流水 线 有 8 级 ,如 图 5. 20 所 示 。 这 里 把 取 指 令 段 细 分 成 了 两 级 : IF 和 
IS, 把 取 数 据 也 细 分 成 了 两 级 : DF 和 DS, 各 级 的 功能 如 下 。 

IF: 取 指 令 的 前 半 步 ,根据 PC 值 去 启动 对 指令 Cache 的 访问 。 

IS: 取 指 令 的 后 半 步 ,在 这 一 级 完成 对 指令 Cache 的 访问 。 

RF: 指令 译 码 ,访问 寄存 器 组 读 取 操作 数 ,冲突 检测 ,并 判断 指令 Cache 是 否 命中 。 

EX: 指令 执行 ,包括 有 效 地 址 计算 ,ALU 操作 ,分 支 目 标 地 址 计算 ,条 件 码 测试 。 

DF: 取 数 据 的 前 半 步 ,启动 对 数据 Cache 的 访问 。 

DS: 取 数 据 的 后 半 步 ,在 这 一 级 完成 对 数据 Cache 的 访问 。 

TC: 标识 比较 ,判断 对 数据 Cache 的 访问 是 否 命中 。 

WB: load 指令 或 运算 型 指令 把 结果 写 回 寄存 器 组 。 


+ 下 
1 1 
1 1 


IF 段 | IS 段 RF 段 EX 段 | DF 段 | DS 段 | TC 段 | WB 有 段 
1 1 1 wa 1 1 1 

背 令 Cache [| Resg 记 : 数据 Cache | Reg 
| | ' 上 : 1 
I 1 1 


图 5. 20 MIPS R4000 的 8 级 流水 线 结构 


图 中 垂直 的 虚线 表示 级 与 级 之 间 的 界限 :也 即 流水 寄存 器 所 在 的 位 置 。 在 该 流水 线 中 ， 
指令 在 IS 的 末尾 就 可 以 使 用 了 。 不 过 判断 指令 Cache 是 否 命中 是 在 RF 段 执行 的 。 对 于 
非 存储 器 访问 指令 ,如 果 指 令 Cache 命中 ,指令 就 可 以 在 EX 流水 级 执行 ,执行 结果 可 以 在 
EX 的 末尾 得 到 。 对 于 存储 器 访问 指令 , 则 是 在 DF 和 DS 流水 级 期 间 访问 数据 Cache 的 ， 
这 时 存储 管理 部 件 (MMU) 要 在 这 两 个 流水 级 中 把 数据 的 虚拟 地 址 变换 成 主 存 物理 地 址 ， 
然后 在 TC 段 把 该 物理 地 址 与 从 数据 Cache 中 读 出 的 标识 (tag) 进 行 比较 ,判断 是 否 命 中 
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(关于 Cache 的 知识 , 见 第 7 章 )。 对 于 store 指令 来 说 ,如 果 命 中 ,只 要 把 数据 送 到 写 入 缓冲 
器 ,由 写 人 缓冲 器 负责 把 数据 写 到 数据 Cache 的 指定 单元 中 去 。 对 于 非 存 储 器 操作 指令 ,在 
WB( 写 结果 ) 流 水 级 把 指令 的 最 后 执行 结果 写 回 到 通用 寄存 器 组 中 。 

正常 情况 下 ,MIPS R4000 指令 流水 线 时 空 图 如 图 5. 21 所 示 。 一 条 指令 的 执行 过 程 经 
历 8 个 流水 线 周期 。 从 流水 线 的 输入 端 看 ,每 一 个 流水 线 周 期 启动 一 条 指令 。 同 样 ,从 流水 
线 输 出 端 看 ,每 一 个 流水 线 周期 执行 完 一 条 指令 。 当 流水 线 被 填 满 时 ,如 图 5. 21 的 黑 框 所 
示 , 有 8 条 指令 在 同时 执行 。 如 果 把 两 个 流水 线 周期 看 作 一 个 时 钟 周期 , 则 在 一 个 时 钟 周期 
内 分 时 流出 了 两 条 指令 。 同 样 ,在 一 个 时 钟 周期 内 也 完成 了 两 条 指令 。 


| 时 名 周期 | 当前 CPU 周期 
FTIS|RETEXTDFTDS 
= IS | RF | Ex | DF 
i IF TIsTRFT|EX WB 
1 风 关 | IF | Is | RF TC | wB 
FTIS Ds| TC | wB 
IF DF| DsS| Tc | wB 
EX [DF [Ds| TcTwB 
RF [Ex [DFTDSTTCTwB 


图 5.21 MIPS R4000 正常 指令 的 流水 线 时 空 图 


对 于 load 指令 ,数据 要 在 DS 的 末尾 才能 准备 好 。 紧 跟 其 后 的 指令 若是 需要 使 用 该 
load 取 来 的 数据 ,就 要 等 待 两 个 流水 线 周期 (已 经 采用 了 数据 定向 ), 如 图 5. 22 所 示 。 可 以 


时 钟 周期 一 
11 213 14 15 16 17 18 19 11 1 
1 1 1 I | 1 1 1 1 | 
1 1 1 1 1 1 1 1 1 | 
>]1 1 1 1 
LDR, 指令 Cache dD Reg| DE 数据 Cache LReg| ! | 1 
iT 1 ; |) 
| 1 1 1 I 1 1 1 1 1 
| 1 1 1 T 1 1 1 1 | 
1 1 1 1 1 机 1 1 1 1 
PE 
1 i + | 1 1 1 1 1 
指令 1 | 指令 Cache Reg | 和 1 数据 Cache | Reg ! | 
| T 1 | T 1 1 | 
1 1 1 1 1 1 1 1 
3 
| 1 1 1 1 
| 1 1 1 1 上 1 1 1 | 
1 1 LL 1 1 1 1 1 1 
1 1 Hb 1 1 | 
指令 2 | 1 指令 Cache Reg | 数据 Cache HReg| | 
1 1 H+ | 1 | 
1 1 T 和 1 T T 1 1 
1 1 1 1 1 1 1 | 
1 1 1 1 上 1 1 1 1 | 
1 1 1 1 1 11 1 1 1 | 
1 1 1 1 11 1 1 1 1 
| | 1 1 11 l 1 1 | 
= 
ADDD Rz ,Ri | 指令 Cache Reg 有 | + Reg 
1 1 1 T 1 | 1 
1 1 1 1 1 1 
I 1 1 1 1 1 


数据 Cache 
I 1 | 
1 1 


5.22 load 指令 引起 的 流水 线 停顿 
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看 出 ,这 时 数据 Cache 是 否 命中 的 结果 还 没 出 来 ,流水线 实际 上 超前 使 用 了 该 数据 。 如 果 后 
面 发 现 数据 Cache 不 命中 ,流水线 就 要 等 正确 的 数据 来 到 时 , 回 退 一 个 时 钟 周期 ,然后 继续 
执行 。 


习 题 5 
5.1 解释 下 列 名 词 。 
指令 级 并 行 IPC 循环 级 并 行 性 ， 指令 的 动态 调度 
指令 的 静态 调度 不 精确 异常 ”精确 异常 CDB 
动态 分 支 预 测 技 术 BHT 分 支 目 标 缓冲 ”前瞻 执行 
ROB 超标 量 超 流 水 超 长 指令 字 


5.2 为 了 保证 程序 执行 的 正确 性 ,必须 保持 哪 两 个 最 关键 的 属性 ? 简 述 其 含义 。 

5.3 记分 牌 算法 中 ,记分 牌 中 记录 的 信息 由 哪 三 部 分 构成 ? 

5.4 简 述 Tomasulo 算法 的 基本 思想 。 

5.5 采用 动态 分 支 预测 技术 的 目的 是 什么 ? 在 所 采用 的 方法 中 ,需要 解决 哪些 关键 
问题 ? 

5.6 给 出 采用 分 支 目标 缓冲 器 (BTB) 后 ,在 流水 线 三 个 阶段 (IF 段 .ID 段 ,.EX 段 ) 所 
进行 的 相关 操作 有 哪些 ? 

5.7 ”基于 硬件 的 前 瞻 执 行 是 把 哪 三 种 思想 结合 在 了 一 起 ? 

5.8 ”假设 有 一 条 长 流水 线 ,仅仅 对 条 件 转 移 指令 使 用 分 支 目 标 缓冲 。 假 设 分 支 预 测 错 
误 的 开销 为 4 个 时 钟 周期 ,缓冲 不 命中 的 开销 为 3 个 时 钟 周期 。 假 设 : 命中 率 为 90% ,预测 
精度 为 900% ,分 支 频率 为 15%, 没 有 分 支 的 基本 CPI 为 1。 

(1) 求 程序 执行 的 CPI。 

(2) 相对 于 采用 固定 的 2 个 时 钟 周期 延迟 的 分 支 处 理 ,采用 哪 种 方法 能 使 程序 执行 速 
度 更 快 ? 

5.9 假设 分 支 目 标 缓冲 的 命中 率 为 90% ,程序 中 无 条 件 转移 指令 的 比例 为 5% ,没有 
无 条 件 转移 指令 的 程序 CPI 值 为 1。 假设 分 支 目 标 缓冲 中 包含 分 支 目 标 指令 ,允许 无 条 件 
转移 指令 进入 分 支 目标 缓冲 , 则 程序 的 CPI 值 为 多 少 ? 假设 原来 的 CPI=1.1。 

5.10 对 于 两 路 超标 量 处 理 器 ,从 存储 器 取 数据 有 两 拍 附加 延迟 ,其 他 操作 均 有 一 拍 附 
加 延迟 ,对 于 下 列 代码 : 

mm Rd, (5) 

项 R17, (R8) 

DRADD R9,R4,R7 
ID R10, (R11) 
IML R12,R13,R14 
DSUB R2,R3,R1 
SW R15, (FR2) 
IML R21,R4,R7 
SH R23, (R22) 
SH R21, (R24) 
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请 按 以 下 要 求 进 行 指令 调度 。 
QD 假设 两 路 功能 部 件 中 同时 最 多 只 有 一 路 可 以 是 访问 存储 器 的 操作 ,同时 也 最 多 只 | 三 
有 一 路 可 以 是 运算 操作 ,指令 顺序 不 变 。 


(2) 假设 两 路 功能 部 件 均 可 以 执行 任何 操作 ,指令 顺序 不 变 。 

(3) 假设 指令 窗口 足够 大 ,指令 可 以 乱 序 流出 ,两 路 功能 部 件 均 可 以 执行 任何 操作 。 

5.11 设 指令 流水 线 由 取 指令 、 分 析 指 令 和 执行 指令 三 个 部 件 构成 ,每 个 部 件 经 过 的 时 
间 为 At, 连 续 流入 12 条 指令 。 分 别 画 出 标量 流水 处 理 机 以 及 ILP 均 为 4 的 超标 量 处 理 机 、 
超 长 指令 字 处 理 机 、 超 流水 处 理 机 的 时 空 图 ,并 分 别 计算 它们 相对 于 标量 流水 处 理 机 的 加 
速 比 。 


第 6 章 
指令 级 并 行 的 开发 一 “软件 方法 


内 容 提 要 

(1) 基本 指令 调度 和 循环 展开 ; 

(2) 跨越 基本 块 的 静态 指令 调度 ; 

(3) 静态 多 指令 流出 : VLIW 技术 ; 

(4) 显 式 并 行 指令 计算 ; 

(5) 开发 更 多 的 指令 级 并 行 ; 

(6) 实例 ; IA-64 体系 结构 。 

开发 指令 级 并 行 的 方法 很 多 ,除了 第 5 章 中 介绍 的 硬件 机 制 外 ,编译 器 也 承担 了 相当 一 部 
分 工作 。 我 们 将 编译 器 所 使 用 的 指令 级 并 行 开发 方法 称 做 “软件 方法 ”"。 与 硬件 方法 相 比 ,由 
于 编译 时 能 够 “虚拟 ”出 一 个 很 大 的 指令 窗口 ,软件 方法 有 潜力 开发 出 更 多 的 指令 级 并 行 。 但 
是 ,缺乏 必要 的 运行 时 的 信息 (如 寄存 器 的 值 . 访 存 指令 的 延迟 、 分 支 转移 的 方向 等 ) 又 使 得 软 
件 方法 的 实际 效果 大 打折 扣 , 因 此 软件 方法 通常 需要 与 一 定 的 硬件 机 制 结合 在 一 起 使 用 。 


6.1 基本 指令 调度 和 循环 展开 


6.1.1 指令 调度 的 基本 方法 


为 了 充分 发 挥 流 水 线 的 作用 ,必须 设法 让 它 满 负荷 地 工作 ,这 就 要 求 充分 开发 指令 之 间 
存在 的 并 行 性 , 找 出 不 相关 的 指令 序列 ,让 它们 在 流水 线 上 重生 并行 执 行 ,这 一 工作 就 是 指 
令 调 度 。 本 小 节 讨 论 这 种 通过 编译 器 来 开发 指令 级 并 行 的 方法 。 

编译 器 完成 指令 调度 的 能 力 受 限于 两 个 特性 : 程序 固有 的 指令 级 并 行 ; @ 流 水 线 功 


能 部 件 的 执行 延迟 。 在 本 节 中 ,假设 浮 点 流水 线 的 延迟 如 表 6. 1 所 示 。 
表 6.1 本 节 使 用 的 浮 点 流水 线 的 延迟 
产生 结果 的 指令 使 用 结果 的 指令 延迟 (时 钟 周期 数 ) 
浮 点 计算 另 一 个 浮 点 计算 3 
浮 点 计算 浮 点 store(S. D) 2 
浮 点 load(L.D) 浮 点 计算 
浮 点 load(L. D) 浮 点 store(S. D) 0 
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需要 说 明 的 是 ,由 于 浮 点 load 指令 的 结果 可 以 通过 定向 路 径 及 时 地 送 给 浮 点 store 指 
令 , 所 以 延迟 为 0( 就 是 不 用 插入 停顿 )。 与 以 前 一 样 , 仍 假设 是 采用 图 3. 17 中 的 5 段 整数 
流水 线 , 分 支 的 延迟 和 整数 load 指令 的 延迟 都 是 一 个 时 钟 周 期 ,并 假设 整数 运算 部 件 是 全 
流水 的 或 者 重复 设置 了 足够 多 的 份 数 , 因 而 每 个 时 钟 周期 都 能 流出 一 条 整数 指令 。 

下 面 通过 一 个 实例 对 指令 调度 进行 研究 和 性 能 分 析 。 

例 6.1 对 于 下 面 的 源 代 码 , 转 换 成 MIPS 汇编 语言 ,在 不 进行 指令 调度 和 进行 指令 调 
度 两 种 情况 下 ,分析 其 代码 一 次 循环 所 需 的 执行 时 间 。 

for (i=1000;i> 0;i--) 


x[i]=x[i]+s; 


解 ” 先 把 该 程序 翻译 成 MIPS 汇编 语言 代码 ,如 下 所 示 。 


Ioop: L.D FO,0R1) // 取 一 个 向 量 元 素 放 入 FO 
RDD.D  F4,F0,F2 // 加 上 在 到 中 的 标量 
sD F4,0(R1) // 存 结果 
DRDDIU RI,R1,#-8 // 将 指针 减 8 每 个 数据 占 8 个 字 节 ) 
BE RLR,Iop /[ 若 也 不 等 于 FR2, 则 表示 尚未 结束 ,转移 
// 到 Ioop 继 续 


其 中 ,整数 寄存 器 R1 用 于 指向 向 量 中 的 当前 元 素 , 其 初 值 指向 第 一 个 元 素 ,8(R2) 指 向 最 后 
一 个 元 素 , 浮 点 寄存 器 F2 用 于 保存 常数 。 
在 不 进行 指令 调度 的 情况 下 ,根据 表 6. 1 中 给 出 的 浮 点 流水 线 中 指令 执行 的 延迟 ,程序 
的 实际 执行 情况 如 下 。 
指令 流出 时 钟 
Ioop: L.D F0,0R1) 1 
他 转 ) 
RDD.D Fd,F0,F2 
任 转 ) 
从 转 ) 
S.D F4,0GD) 
DaDDIU RI,RI,#-8 
低 转 ) 
EE R1,R2,Ioop 
全 转 ) 


可 以 看 出 ,每 完成 一 个 元 素 的 操作 需要 10 个 时 钟 周期 ,其 中 有 5 个 是 空转 周期 。 在 用 
编译 器 对 上 述 程序 进行 指令 调度 以 后 ,程序 的 执行 情况 如 下 。 
指令 流出 时 钟 

Ioop: L.D F0,0(R1) 下 
DRDDIU RI,RI,#-8 2 
RDD.D Fd,F0,E2 3 
空转 ) 4 
5 
6 


oo nnn 


己 
5 


BE RLR2,Ioop 
S.D Ed4,8GI) 


Oo 淖 
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这 里 ,把 DADDIU 指令 调度 到 了 L.D 指令 和 ADD.D 指令 之 间 的 “空转 ” 拍 。 把 S. D 指 
放 到 了 分 支 指令 的 延迟 槽 中 。 由 于 修改 指针 的 DADDIU 指令 被 调度 到 了 S.D 上 过 省 证 
提前 对 指针 进行 了 减 8 的 操作 ,所 以 要 对 S.D 指令 中 的 偏 移 量 进行 修正 , 即 把 “0(R1)” 改 为 

“8(R1)”。 

经 过 这 样 的 指令 调度 后 ,一 个 元 素 的 操作 时 间 从 10 个 时 钟 周期 减少 到 了 6 个 时 钟 周 
期 ,其 中 5 个 周期 是 有 指令 执行 的 ,只 剩 下 一 个 空转 周期 。 

从 这 个 例子 可 以 看 出 ,编译 时 指令 调度 并 不 会 真正 消除 指令 间 的 相关 ,而 是 通过 重新 安 
排 指令 的 流出 顺序 (如 DADDIU .S. D 指令 ) ,使 得 指令 间 的 相关 尽 可 能 少 地 引起 流水 线 空 
转 , 从 而 减少 整个 指令 序列 在 流水 线 上 的 执行 时 间 。 另 一 个 需要 注意 的 地 方 是 ,按照 本 小 节 
介绍 的 基本 指令 调度 方法 ,指令 调度 不 能 跨越 分 支 指令 ,本 例 中 S. D 指令 被 调度 到 BNE 指 
令 的 分 支 延 迟 槽 中 ,不 属于 跨越 分 支 指令 的 情况 。 

进一步 分 析 上 面 的 例子 可 以 发 现 .虽然 对 一 个 元 素 的 操作 时 间 从 10 个 时 钟 周期 减少 到 
了 6 个 时 钟 周 期 ,但 是 其 中 只 有 L.D.ADD.D 和 S.D 这 三 条 指令 是 我 们 需要 的 有 效 操作 ， 
占用 三 个 时 钟 周期 ,而 DADDIU .空转 和 BEN 这 三 个 时 钟 周期 都 是 为 了 控制 循环 和 解决 数 
据 相 关 等 待 而 附加 的 ,因此 整个 执行 过 程 中 有 效 操 作 的 比例 并 不 高 。 这 是 因为 每 个 循环 迁 
代 中 只 有 5 条 指令 ,进行 指令 调度 的 余地 很 小 ,必须 想 办 法 增加 每 个 循环 近代 中 的 指令 数 。 
循环 展开 (Loop Unrolling) 就 是 解决 这 一 问题 的 有 效 方法 之 一 。 


6.1.2 循环 展开 


在 前 面 讲 过 ,增加 指令 间 并 行 性 最 简单 和 最 常用 的 方法 ,是 开发 循环 级 并 行 性 (Loop 
Level Parallelism,LLP) 一 一 循环 的 不 同 迭 代 之 间 存 在 的 并 行 性 。 所 谓 循环 展开 (Loop 
Unrolling) 就 是 指 把 循环 体 的 代码 复制 多 次 并 按 顺序 排放 ,然后 相应 地 调整 循环 的 结束 条 
件 。 通 过 循环 展开 ,多 个 循环 迭代 的 代码 可 以 合 到 一 起 调度 ,给 编译 器 进行 指令 调度 带 来 了 
更 大 的 空间 ,而且 还 能 够 消除 中 间 的 分 支 指令 和 循环 控制 指令 引起 的 开销 。 通 过 下 面 的 例 
子 , 可 以 更 清楚 地 看 到 循环 展开 技术 所 带 来 的 好 处 。 

例 6.2 将 上 述 例子 中 的 循环 展开 3 次 得 到 4 个 循环 体 , 然 后 对 展开 后 的 指令 序列 在 
不 调度 和 调度 两 种 情况 下 ,分 析 代 码 的 性 能 。 假 定 R1 的 初 值 为 32 的 倍数 , 即 循环 次 数 为 4 
的 倍数 。 消 除 宛 余 的 指令 ,并 且 不 要 重复 使 用 寄存 器 。 

解 ”显然 这 一 循环 的 不 同和 迭代 之 间 是 不 存在 相关 的 ,所 以 多 次 迭代 可 以 并 行 执行 。 

由 于 假定 R1 的 初 值 为 32 的 倍数 , 即 循环 次 数 为 4 的 倍数 ,因此 在 将 循环 体 展开 4 次 之 
后 ,循环 结束 时 没有 剩余 尚未 执行 的 操作 ,无 须 在 循环 体 后 面 增加 补偿 代码 。 

首先 分 配 寄存 器 (注意 : 不 重复 使 用 寄存 器 )。F0、F4 用 于 展开 后 的 第 一 个 循环 体 ,F2 
用 于 保存 常数 ,把 F6 和 F8 用 于 展开 后 的 第 二 个 循环 体 ,F10 和 Fl12 用 于 第 三 个 循环 体 ， 
Fl14 和 Fl16 用 于 第 四 个 循环 体 。 这 里 不 重复 使 用 寄存 器 实际 上 就 是 进行 了 重 命名 。 展 开 后 
没有 调度 的 代码 如 下 。 


指令 流出 时 钟 
oo LD FV0,0(R1) 1 
他 转 ) 多 


RDD.D ~ F4,F0,F2 3 


作 转 ) 
祭 转 ) 
S.D 
Ep 
你 转 ) 
RDD.D 
他 转 ) 
他 转 ) 
sD 
iD 
你 转 ) 
RDD.D 
您 转 ) 
您 转 ) 
S.D 
L.D 
储 转 ) 
ALD.D 
您 转 ) 
您 转 ) 
S.D 
DRDDIU 
您 转 ) 
BNE 
您 转 ) 


F4,0®R1) 
Fé,- 8(R1) 


FB8,F6,F2 


F8,- 8(R1) 


F10,- 16(R1) 


Fl2,F10,F2 


Fl2,- 16(R1) 


Fl14,- 24(R1) 


Fl6,F14,F2 


Fl6,- 24(R1) 


Rl,R1,#-32 


RlL,R2,Ioop 


BB 


BRBRBB 


28 
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这 里 把 展开 后 的 前 三 个 循环 体 中 的 DADDIU 指令 删除 了 ,并 对 L. DD 指令 中 的 偏 移 量 进行 
了 相应 的 修正 。 对 最 后 留 下 的 DADDIU 指令 中 的 立即 数 也 进行 了 相应 的 调整 。 

这 个 循环 每 遍 共 使 用 了 28 个 时 钟 周期 ,有 4 个 循环 体 ,完成 4 个 元 素 的 操作 ,平均 每 个 
元 素 使 用 28/4=7 个 时 钟 周期 。 与 原 代码 的 每 个 元 素 需 要 10 个 时 钟 周期 相 比较 ,节省 了 不 
少 的 时 间 。 这 主要 是 从 减少 循环 控制 的 开销 中 获得 的 。 但 是 在 展开 后 的 循环 体 中 ,实际 指 
令 只 有 14 条 ,其 他 13 个 周期 都 只 是 空转 ,可 见效 率 并 不 高 。 下 面 对 指 令 序 列 进行 优化 调 
度 , 以 减少 空转 周期 。 


指令 流出 时 钟 


Ioop: L.D FO0,0R1) 
LD Fé,- 8R1) 
LD F10,— 16(R1) 
LD Fl4,- 24(R1) 
RDD.D F4,F0,F2 
RDD.D F8,F6,F2 
RDD.D F]12,F10,F2 
RDD.D F]16,F14,F2 
sD F4,0(R1) 
sD F8,- 8R1) 


和 


oo annow Nn 


9 
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DRDDIU RL,RL,# 一 32 了 
S.D 了 2,16(R1) 1 
BE 也 ,R2,Ioop 13 
S.D Fl16,8(R1) 14 


这 个 循环 由 于 没有 数据 相关 引起 的 空转 等 待 ,整个 循环 仅仅 使 用 了 14 个 时 钟 周期 ,平均 每 
个 元 素 使 用 14/4=3.5 个 时 钟 周期 。 

从 上 述 例子 中 可 以 知道 ,通过 循环 展开 .寄存 器 重 命名 和 指令 调度 ,可 以 有 效 地 开发 出 
指令 级 并 行 。 

循环 展开 和 指令 调度 时 要 注意 以 下 几 个 方面 。 

(1) 保证 正确 性 。 在 循环 展开 和 调度 过 程 中 尤其 要 注意 两 个 地 方 的 正确 性 : 循环 控 
制 ,操作 数 偏 移 量 的 修改 。 

(2) 注意 有 效 性 。 只 有 找到 不 同 循环 体 之 间 的 无 关 性 ,才能 够 有 效 地 使 用 循环 展开 。 

(3) 使 用 不 同 的 寄存 器 。 如 果 使 用 相同 的 寄存 器 ,或 者 使 用 较 少 数量 的 寄存 器 ,就 可 能 
导致 新 的 冲突 。 

(4) 删除 多 余 的 测试 指令 和 分 支 指 令 , 并 对 循环 结束 代码 和 新 的 循环 体 代 码 进 行 相应 
的 修正 。 

(5) 注意 对 存储 器 数据 的 相关 性 进行 分 析 。 例 如 ,对 于 load 指令 和 store 指令 ,如 果 
它们 在 不 同 的 循环 迭代 中 访问 的 存储 器 地 址 是 不 同 的 ,它们 就 是 相互 独立 的 ,可 以 相互 
对 调 。 

(6) 注意 新 的 相关 性 。 由 于 原 循环 不 同 次 的 迭代 在 展开 后 都 到 了 同一 次 循环 体 中 , 因 
此 可 能 带 来 新 的 相关 性 。 


6.2 跨越 基本 块 的 静态 指令 调度 


6.1 节 中 ,通过 循环 展开 和 基本 指令 调度 来 开发 指令 级 并 行 。 当 循环 体 为 简单 的 顺序 
结构 时 ,这 些 方法 的 优化 效果 非常 好 ,因为 它们 可 以 将 多 个 循环 迭代 合并 在 一 起 ,构成 一 个 
更 大 的 基本 块 ,不 仅 加 大 了 指令 调度 的 空间 ,而 且 减 少 了 循环 控制 指令 。 但 是 ,如 果 循 环 体 
不 是 顺序 结构 而 是 分 支 结构 时 ,指令 调度 就 变 得 更 加 复杂 了 。 一 般 来 说 ,高 效 地 优化 含有 分 
支 结构 的 循环 体 需要 在 多 个 基本 块 间 移 动 指令 ,这 种 调度 被 称 为 “全 局 指令 调度 ”。 本 节 将 
介绍 两 种 全 局 指令 调度 技术 : 踪迹 调度 和 超 块 调度 。 在 详细 介绍 这 两 种 技术 之 前 , 先 来 了 
解 一 下 全 局 指令 调度 的 基本 方法 以 及 它 所 面临 的 难题 与 挑战 。 


6.2.1 全 局 指令 调度 


全 局 指令 调度 的 目标 是 在 保持 原 有 数据 相关 和 控制 相关 不 变 的 前 提 下 , 尽 可 能 地 缩短 
包含 分 支 结构 的 代码 段 的 总 执行 时 间 。 一 般 来 说 ,对 于 单 流 出 流水 线 ,减少 指令 数 就 可 以 缩 
短 总 执行 时 间 ;而 对 于 多 流出 处 理 , 只 有 减少 关键 路 径 的 长 度 才能 真正 缩短 总 执行 时 间 。 所 
谓 关键 路 径 (CCritical Path) ,是 指 根据 指令 间 的 相关 关系 构成 的 数据 流 图 中 延迟 最 长 的 一 条 
路 径 。 只 有 缩短 这 条 路 径 的 长 度 , 才 能 真正 减少 总 执行 时 间 。 之 所 以 要 保持 原 有 数据 的 相 
关 和 控制 相关 不 变 , 是 为 了 保证 执行 结果 正确 。 数 据 相关 使 得 指令 必须 依照 一 定 的 先后 顺 


序 执行 ,而 控制 相关 则 限制 了 指令 在 基本 块 间 的 自由 移动 。 
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尽管 前 面 介绍 的 循环 展开 技术 可 以 减少 构成 循环 的 分 支 指令 引起 的 流水 线 “ 空 转 ”, 但 
却 无 法 消除 循环 体内 的 分 支 指令 引起 的 流水 线 “ 空 转 ”。 而 全 局 指令 调度 技术 则 可 以 做 到 这 
一 点 , 它 的 诀窍 在 于 在 循环 体内 的 多 个 基本 块 间 移动 指令 ,从 而 扩大 那些 执行 频率 较 高 的 基 
本 块 的 体积 。 显 然 , 这 种 技术 的 效果 取决 于 能 否 准确 估算 各 基本 块 的 执行 频率 。 不 过 ,即便 
能 够 准确 估算 各 基本 块 的 执行 频率 ,全 局 指令 调度 也 无 法 保证 总 会 带 来 性 能 提升 ,而且 它 还 


会 带 来 新 的 问题 ,影响 程序 执行 的 正确 性 。 


由 于 分 支 指 令 转 移 成 功 和 失败 的 概率 一 般 不 相同 ,分 支 指令 所 在 的 基本 块 转移 成 功 时 
执行 的 基本 块 以 及 转移 失败 时 执行 的 基本 块 的 执行 概率 往往 也 不 会 相同 ,第 一 个 基本 块 的 


执行 概率 等 于 其 余 两 个 基本 块 执行 概率 之 和 ,而 在 这 
三 个 基本 块 之 间 移 动 指 令 势 必 会 改变 该 指令 的 执行 频 
率 , 有 时 会 得 到 错误 的 执行 结果 。 如 图 6. 1 所 示 的 控 
制 流 图 为 例 , 若 分 支 条 件 为 true( 转 移 ) 的 概率 远大 于 
为 false( 不 转移 ) 的 概率 ,全 局 指令 调度 时 会 将 语句 1、 
语句 2 .语句 3, 语句 5 合并 成 一 个 更 大 的 基本 块 ,因为 
这 条 路 径 的 执行 频率 更 高 ,有 可 能 开发 更 多 的 指令 级 
并 行 。 但 合并 后 必须 保证 语句 2 的 结果 为 false 时 执 
行 结 果 依 然 正 确 , 而 且 为 了 完成 合并 ,语句 3 和 语句 5 
应 该 被 调度 到 语句 2 之 前 。 不 过 这 两 条 语句 的 移动 是 
有 区 别 的 : 语句 3 是 猜测 执行 ,因为 仅 当 语句 2 成 功 转 
移 时 语句 3 才 会 执行 ;而 无 论语 句 2 转移 是 否 成 功 , 语 
句 5 均 会 执行 。 


1: A[=AL+B] 


else 部 分 


图 6.1 一 个 分 支 结 构 的 代码 段 


那么 编译 器 是 如 何 确保 语句 3 和 语句 5 的 移动 不 会 影响 执行 结果 的 正确 性 呢 ? 为 了 回 
答 这 个 问题 , 先 将 图 6. 1 中 的 代码 转换 为 下 面 的 MIPS 汇编 指令 ,其 中 变量 A、B、C 的 地 址 
分 别 保存 在 寄存 器 R1、R2、R3 内 。 语 句 3 和 语句 5 分 别 被 转换 为 代码 段 中 的 指令 I 和 了 ， 


如 阴影 部 分 所 示 。 
ID R4,0(R1) // 取 A 
ID R5,0(R2) // 取 BB 
DADDJ RA,RA,RS JE AHB 
SD R4,0(R1) // 存 A 
EERZ R4, thenpart /= 0 则 转移 
x // 代 码 段 x, 基 本 块 elsepart 
J join 
thenpart: // 基 本 块 thenpart 
SD …,0(2) // 指 令 五 ,对 应 语句 3 
join: 
SD…,0G3) /指令 五 ,对 应 语句 5 


我 们 先 来 看 看 如 何 将 指令 D 移 到 BEQZ 之 前 。 为 方便 起 见 .用 I 表示 BEQZ 指令 前 
最 后 一 条 对 变量 B 赋值 的 指令 。 如 果 基 本 块 elsepart 中 有 一 条 语句 使 用 了 变量 B 的 值 ， 
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把 thenpart 中 的 指令 0 移 到 BEQZ 前 将 会 改变 程序 的 执行 结果 ,因为 这 破坏 了 原 有 的 指令 
间 数 据 相关 elsepart 中 的 指令 本 应 使 用 的 结果 ,但 现在 它 却 要 使 用 的 结果 了 。 

有 一 些 复杂 的 调度 机 制 可 以 确保 在 调度 工 的 情况 下 保持 执行 结果 不 变 , 但 需要 向 基本 
块 elsepart 中 增加 若干 指令 以 保证 结果 正确 ,比如 将 指令 的 结果 保存 在 另 一 个 变量 T 
中 ,而 将 I 中 相应 的 源 操作 数 修改 为 T。 这些 新 增加 的 指令 被 称 为 补偿 代码 
(Compensation Code)。 不 过 这 种 调度 在 编译 实现 时 比较 复杂 ,而 且 当 BEQZ 指令 转移 不 成 
功 时 补偿 代码 的 执行 会 带 来 额外 的 时 间 开 销 。 

将 指令 I 调度 到 BEQZ 之 前 需要 两 步 。 首先,L 将 被 移动 到 基本 块 thenpart 中 ,同时 
被 复制 到 基本 块 elsepart 中 。 这 样 的 复制 工作 是 必需 的 ,否则 当 elsepart 被 执行 时 I 将 不 
会 被 执行 ,这 会 影响 标号 join 后 所 有 与 I; 数据 相关 的 指令 的 正确 执行 。 接 下 来 ,如 果 不 影 
响 执行 结果 ,thenpart 块 中 的 指令 将 被 调度 到 BEQZ 之 前 ,同时 删除 elsepart 块 中 工 的 
副本 ,因为 此 时 这 条 语句 已 是 元 余 的 了 。 

进行 全 局 指令 调度 时 编译 器 必须 仔细 其 酌 哪 些 指令 可 被 选 作 调度 的 对 象 。 选 择 的 依据 
很 简单 , 即 调度 这 条 指令 是 否 一 定 会 带 来 性 能 提升 。 例 如 ,将 指令 D 调度 到 BEQZ 之 前 必 
须 判 断 这 种 调度 是 否 一 定 能 够 缩短 总 执行 时 间 ? 答案 是 不 一 定 ,因为 为 了 保证 执行 结果 的 
正确 需要 增加 一 些 补偿 代码 ,补偿 代码 的 执行 会 带 来 额外 的 时 间 开 销 。 同 样 ,调度 指令 I 
时 也 面临 同样 的 问题 。 全 局 指令 调度 只 能 告诉 我 们 将 指令 调度 到 分 支 指令 之 前 带 来 性 能 提 
升 的 概率 比较 大 。 

在 调度 指令 TD 之 前 ,编译 器 需要 综合 考虑 以 下 多 个 因素 ， 

(1) 该 分 支 中 基本 块 thenpart 和 elsepart 的 执行 频率 各 是 多 少 ? 如 果 thenpart 执行 得 
更 加 频繁 ,那么 调度 D 很 可 能 带 来 性 能 提升 ;否则 ,尽管 也 可 以 调度 TD ,但 调度 后 的 代码 执 
行 效率 反而 会 降低 。 

(2) 在 分 支 语句 前 完成 D 所 需 的 开销 有 多 大 ? 如 果 分 支 语句 前 有 一 些 “ 空 转 ? 周 期 ,而 
且 可 以 被 调度 到 某 个 这 样 的 周期 内 执行 ,那么 所 需 的 开销 就 为 0。 

(3) 调度 D 是 否 能 够 缩短 thenpart 块 的 执行 时 间 ? 如 果 了 是 该 块 关 键 路 径 的 第 一 条 
语句 ,调度 它 就 可 以 减少 thenpart 块 的 执行 开销 。 

(4) D 是 否 是 最 佳 的 被 调度 对 象 ?” 调度 I 或 thenpart 块 内 的 其 他 指令 是 否 能 够 获得 
更 大 的 性 能 提升 ? 

(5) 若 需 要 向 elsepart 块 中 增加 补偿 代码 ,补偿 代码 的 执行 开销 是 多 少 ? 怎样 生成 补 
偿 代码 ? 

可 以 看 出 ,全 局 指令 调度 问题 非常 复杂 ,不 仅 选择 哪 条 指令 作为 调度 对 象 取决 于 多 个 因 
素 , 而 且 各 条 被 调度 的 指令 往往 也 是 紧密 相关 的 。 即 便 是 确定 从 哪 条 指令 开始 进行 全 局 指 
令 调 度 也 是 一 个 十 分 复杂 的 问题 。 

为 了 简化 这 一 过 程 ,人 们 提出 了 一 些 新 的 全 局 指令 调度 技术 。 接 下 来 我 们 将 详细 讨论 
其 中 的 两 种 : 踪迹 调度 和 超 块 调度 ,它们 的 共同 之 处 在 于 将 编译 优化 的 重点 放 在 那些 执行 
频率 很 高 的 路 径 上 ,将 这 些 路 径 上 的 基本 块 拼接 在 一 起 构成 一 个 更 大 的 基本 块 并 进行 优化 。 
显然 ,如 何 处 理 分 支 指令 是 这 些 技术 必须 解决 的 一 个 关键 问题 。 
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6.2.2 踪迹 调度 

踪迹 调度 (Trace Scheduling) 非 常 适合 多 流出 处 理 器 ,因为 对 于 这 些 处 理 器 而 言 ,简单 
地 进行 循环 展开 和 基本 指令 调度 很 难 开 发 出 足够 的 指令 级 并 行 来 使 流水 线 保持 在 充满 
状态 。 踪 迹 (trace) 是 程序 执行 的 指令 序列 ,通常 由 一 个 或 多 个 基本 块 组 成 ,trace 内 可 以 
有 分 支 , 但 一 定 不 能 包含 循环 。 踪迹 调度 会 优化 执行 频率 高 的 trace, 减 少 其 执行 开销 。 
但 由 于 需要 添加 补偿 代码 以 确保 正确 性 ,那些 执行 频率 较 低 的 trace 的 开销 反而 会 有 所 增 
加 。 可 见 , 仅 当 不 同 trace 的 执行 频率 差别 较 大 而 且 各 条 trace 的 执行 频率 受 输入 集 的 影 
响 较 小 时 ,这 种 方法 才能 取得 比较 好 的 效果 。 这 使 得 踪迹 调度 一 般 只 适用 于 特定 类 型 的 
应 用 。 

踪迹 调度 过 程 分 为 两 步 。 第 一 步 称 为 踪迹 选择 (Trace Selection) ,负责 从 程序 的 控制 
流 图 中 选择 执行 频率 较 高 的 路 径 , 每 条 路 径 就 是 一 条 trace。 循 环 展开 是 生成 trace 的 常用 
方法 之 一 , 它 主 要 处 理 控制 循环 的 分 支 指 令 , 因 为 在 一 般 情况 下 循环 体 的 执行 频率 会 远 远 高 
于 循环 体外 其 他 基本 块 的 执行 频率 。 至 于 其 他 分 支 指令 ,一 般 是 根据 静态 分 支 预测 的 结果 
或 是 在 典型 输入 集 下 的 执行 统计 信息 进行 处 理 , 若 转移 成 功 (或 失败 ) 的 概率 很 高 , 则 将 其 视 
作 转 移 总 是 成 功 (或 失败 )。 显 然 ,进行 踪迹 选择 时 ,我 们 只 能 考虑 转移 成 功 和 失败 的 概率 相 
差 很 大 的 分 支 指令 ,而 那些 转移 成 功 和 失败 概率 接近 的 分 支 指令 ,可 以 通过 6. 4. 2 小 节 介绍 
的 谓词 执行 技术 进行 优化 。 

以 图 6.1 中 的 代码 为 例 ,假设 它 是 某 循 环 的 循环 体 ,阴影 部 分 为 执行 频率 高 的 路 径 , 就 
将 该 循环 展开 4 次 并 把 阴影 部 分 拼接 在 一 起 得 到 一 条 trace, 如 图 6.2 所 示 。 可 以 看 出 ,一 
条 trace 可 以 有 多 个 人口 和 多 个 出 口 , 这 里 的 入 口 (entry) 指 的 是 控制 流 进入 trace 后 执行 的 
第 一 条 指令 ,图 6.2 中 的 4 条 “A[ 门 =A[ 门 十 B[ 站 ”语句 都 是 该 trace 的 入 口 ,出 口 (exit) 则 
是 指控 制 流离 开 trace 前 执行 的 最 后 一 条 指令 ,如 图 6. 2 中 的 分 支 语句 所 示 , 当 分 支 条件 为 
false 时 控制 流 将 离开 该 trace, 男 外 图 中 最 后 一 条 语句 “C[i]==” 也 是 该 trace 的 一 个 出 口 ， 
执行 该 语句 后 控制 流 将 无 条 件 退出 该 trace。 

生成 trace 后 就 可 以 开始 第 二 个 步骤 了 ,这 一 步 称 为 踪迹 压缩 (Trace Compaction)， 
即 对 已 生成 的 trace 进行 指令 调度 和 优化 , 尽 可 能 地 缩短 其 执行 时 间 。 进 行踪 迹 压缩 时 采 
用 的 方法 与 前 面 介 绍 的 基本 指令 调度 相似 ,都 是 通过 重新 安排 trace 内 指令 的 执行 顺序 来 
缩短 总 执行 时 间 的 。 但 是 , 当 跨 越 trace 内 部 的 入 口 或 出 口 调度 指令 时 必须 非常 小 心 , 因 
为 这 有 可 能 改变 原 有 的 控制 相关 和 数据 相关 .从 而 造成 执行 结果 错误 。 通 常 需要 向 trace 
外 该 入 口 的 前 驱 基 本 块 或 该 出 口 的 后 继 基 本 块 中 增加 补偿 代码 ,以 确保 执行 结果 的 
正确 。 

图 6.3 给 出 了 一 个 完整 的 踪迹 调度 过 程 。 假 设 如 图 6. 3(a) 所 示 的 控制 流 图 中 ,控制 流 
离开 基本 块 B 与 B 后 发 生 转 移 ( 分 支 条 件 为 Y) 的 概率 很 大 ,而 离开 Bs 后 发 生 转 移 的 概率 
很 小 。 这 样 ,经 过 踪迹 选择 我 们 可 以 得 到 三 条 trace: Bi-B;、Bs 以 及 Bs-B; ,如 图 6.3(a) 中 的 
灰色 部 分 所 示 。 由 于 B, 是 循环 体 ,这 三 条 trace 无 法 被 合并 在 一 起 。 接 下 来 将 对 每 条 trace 
进行 踪迹 压缩 。 我 们 以 trace* Bi,-Bs "为 例 进行 说 明 , 这 条 trace 有 一 个 人 口 和 两 个 出 口 。 踪 
迹 压 缩 的 结果 如 图 6. 3(b) 所 示 ,该 图 左边 列 出 了 踪迹 压缩 前 基本 块 B,、B。、Bs 的 代码 ,右边 
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则 是 踪迹 压缩 后 这 三 个 基本 块 的 代码 。 经 过 踪迹 压缩 ,指令 y 一 x 一 y” 从 Bi 被 调度 到 B， 
中 ,跨越 了 trace 的 一 个 出 口 ,控制 流 从 该 出 口 离开 trace 后 将 进入 基本 块 B; 。 为 确保 程序 
在 分 支 “if x 二 5 goto Bs "转移 失败 (分 支 条 件 为 N) 时 执行 结果 依然 正确 ,需要 向 块 B。 中 增 
加 补偿 代码 ,即将 指令 “y= 二 x 一 y" 复 制 到 B, 的 第 一 条 指令 之 前 ,否则 当 执 行 B, 的 第 二 条 指 


令 “y 王 y 十 1 时 将 得 到 错误 结果 。 


A[i] =A[i+B] 


true Ae> false 
Bi 
CUE= 
1 1 
A[] =A[N+B] 
true < 人 > false 
B[i= 
Cl= 
1 1 
A[i] =A[i]+B[] 
true false 
A[i]=07? 
ZI- 
CI 
1 1 
A[i] =A[il+B[i] 
true false 


总 
Ss 
1 


后 
Ca 
加 


图 6.2 将 图 6.1 中 代码 构成 的 循环 展开 4 次 后 得 到 的 trace 


trace 出 口 


trace 人 和 人口 


trace 出 口 


trace 入 口 


trace 出 口 


trace 入 口 


trace 出 口 


篆 们 级 并 行 的 开发 一 款 件 方法 


在 踪迹 调度 中 ,由 于 选 出 的 trace 都 是 执行 频率 很 高 的 路 径 , 减 少 它们 的 执行 开销 有 助 
于 缩短 程序 的 总 执行 时 间 , 这 就 是 踪迹 调度 能 够 提升 性 能 最 根本 的 原因 。 目 前 踪迹 调度 技 
术 已 经 成 功 应 用 于 对 科学 计算 程序 的 优化 中 ,这 些 应 用 中 都 包含 了 大 量 的 循环 ,而 且 能 够 准 
确 地 统计 出 程序 运行 的 行为 特征 。 尽 管 如 此 ,但 目前 还 不 清楚 这 种 优化 方法 是 否 适用 于 其 他 
非 循 环 密集 型 的 应 用 或 行为 特征 比较 复杂 的 应 用 中 。 对 于 这 些 应 用 ,补偿 代码 引起 的 开销 很 
有 可 能 降低 踪迹 调度 的 优化 效果 .而 且 对 编译 器 来 说 ,踪迹 调度 会 大 大 增加 其 实现 复杂 度 。 


Bi 
N 
区 Bi: x=x+1 Bi: x=x+tl 
B. 1 Fx-y 
2 1 ifx<5 goto By ifx<s goto Bs 
4 
N [| By: z=x*z By: y=x-—y 
B 和 y=y+1 2Z=x*z 
3 goto B; yytl 
» N goto Bs 
By: y=2+y By: y=-y 
Be 2 2 
-x2 
名 压缩 前 压缩 后 
(a) 控制 流 图 (b) 踪迹 压缩 前 后 的 基本 块 B| 、B，、B; 


图 6.3 踪迹 调度 和 补偿 代码 


6.2.3 超 块 调度 


在 踪迹 调度 中 ,如 果 trace 入 口 或 出 口 位 于 trace 内 部 ,编译 器 生成 补偿 代码 的 难度 将 
大 大 增加 ,而 且 编 译 器 很 难 评 估 这 些 补偿 代码 究竟 会 带 来 多 少 性 能 损失 ,这 是 踪迹 调度 的 一 
个 重要 缺点 。 为 解决 这 个 问题 ,人 们 增加 了 对 trace 拓扑 结构 的 约束 ,将 其 限制 为 只 能 拥有 
一 个 入 口 ,但 可 以 拥有 多 个 出 口 的 结构 ,这 种 新 结构 被 称 为 超 块 (superblock)。 超 块 可 被 视 
作 一 种 扩展 的 基本 块 结构 ,显然 其 构造 过 程 与 trace 非常 相似 。 

由 于 只 有 一 个 人 口 ,压缩 超 块 比 压缩 trace 容易 得 多 ,因为 在 压缩 超 块 时 ,只 需要 考虑 
跨越 超 块 出 口 移动 指令 的 情形 ,而 且 对 于 那些 只 有 一 个 出 口 的 计数 控制 循环 (例如 只 有 一 个 
循环 100 次 后 结束 的 for 循环 ) ,经 过 循环 展开 后 得 到 的 超 块 只 有 一 个 人口 和 一 个 出 口 ,在 
这 样 的 超 块 中 进行 指令 调度 显然 更 加 容易 。 

现在 的 问题 是 怎样 才能 构造 出 仅 有 一 个 入 口 的 超 块 。 以 图 6. 4 为 例 进行 介绍 ,该 图 显 
示 了 将 图 6.1 中 的 代码 作为 循环 体 展开 4 次 后 得 到 的 超 块 。 该 超 块 只 有 一 个 人 口 ,但 有 5 
个 出 口 。 图 中 用 “n= 二 4/3/2/1/0” 区 分 这 些 出 口 .表示 本 次 执行 时 控制 流 从 该 出 口 离开 超 块 
时 已 经 执行 了 4 一 n 次 循环 迷 代 。 这 样 .除了 最 后 一 个 出 口外 ,从 其 他 4 个 出 口 退出 超 块 后 ， 
还 需要 继续 完成 余下 的 n 次 迭代 。 因 此 将 原 循环 体 复制 一 份 .作为 这 4 个 出 口 的 后 继 基 本 
块 ,如 图 6.4 右 侧 的 循环 所 示 。 由 于 被 复制 的 代码 段 总 是 作为 退出 超 块 后 必须 执行 的 补偿 
代码 , 故 这 种 技术 被 形象 地 称 为 尾 复制 (Tail Duplication)。 

与 踪迹 调度 相 比 , 超 块 调度 可 以 简化 补偿 代码 的 生成 过 程 ,并 降低 指令 调度 的 复杂 度 ， 
但 由 于 其 结构 的 限制 (只 有 一 个 人口 ) , 超 块 结构 的 目标 代码 体积 也 会 大 大 增加 。 此 外 , 它 面 
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临 着 与 踪迹 调度 相同 的 问题 一 一 补偿 代码 的 生成 使 得 编译 过 程 更 加 复杂 ,而且 由 于 无 法 准 
确 评估 由 补偿 代码 引起 的 时 间 开 销 , 这 种 方法 的 应 用 范围 受到 一 定 限 制 。 

踪迹 调度 、 超 块 调度 等 全 局 指令 调度 技术 的 目的 都 是 尽 可 能 地 开发 更 多 的 指令 级 并 行 ， 
因而 更 加 适用 于 多 流出 处 理 器 。 但 多 流出 处 理 器 如 何 充 分 利用 这 些 编译 时 开发 出 的 指令 级 
并 行 呢 ? 6.3 和 6.4 两 节 将 详细 讨论 这 一 问题 。 


AL=ALI+B] 


B[i]= 
时 
C= 
1 
AL]=ALi]+B[] 
Ali]=A[i+BI] 
true 40-0? false 
= 超 据 出 口 rue 4-07 Stalse 
Bl]= 
ES 
CI 站 广 
1 
ALI=ALI+B] 本 让 
true < > 执行 4-n 次 | 
1 n=2 的 
超 块 出 口 
了 
ct 
| 
A[i=4[i+B[] 


n=0 的 
超 块 出 口 


图 6.4 由 图 6.1 的 代码 得 到 的 超 块 


篆 售 级 并行 的 开发 一 款 件 方法 


6.3 静态 多 指令 流出 : VLIW 技术 


超标 量 处 理 器 在 运行 时 动态 确定 指令 窗口 中 哪些 指令 可 以 被 流出 执行 ,为 此 它 必 须 准 
确 识别 出 指令 窗口 内 的 指令 以 及 流水 线 上 的 所 有 指令 之 间 存 在 哪些 相关 。 在 动态 调度 的 超 
标量 处 理 器 中 ,这些 工 作 基本 都 是 由 硬件 完成 的 ,而 在 静态 调度 的 超标 量 处 理 器 中 ,部 分 相 
关 检 测 和 指令 调度 工作 交 由 编译 器 完成 ,大 大 降低 了 硬件 实现 的 复杂 度 。 

与 超标 量 处 理 器 不 同 ,VLIW( 超 长 指令 字 ) 处 理 器 在 编译 时 静态 确定 哪些 指令 能 够 同 
时 流出 ,进一步 降低 了 流水 线 硬件 的 实现 复杂 度 , 这 有 助 于 提高 它 的 主 频 。VLIW 能 够 把 同 
时 流出 的 或 者 满足 特定 约束 的 一 组 操作 打包 在 一 起 ,得 到 一 条 更 长 (64 位 、128 位 或 更 长 ) 的 
指令 ,这 就 是 VLIW 名 字 的 由 来 。 每 个 操作 被 放 在 VLIW 指令 的 一 个 槽 (slot) 内 。VLIW 
处 理 器 执行 这 样 一 条 长 指令 就 相当 于 超标 量 处 理 器 同时 执行 多 条 指令 ,从 而 实现 了 多 流出 。 
由 于 所 有 开发 指令 级 并 行 的 任务 都 交 由 编译 器 完成 ,VLIW 处 理 器 需要 更 加 “智能 ”的 编 
译 右 。 

只 有 从 应 用 程序 中 挖掘 出 足够 多 的 并 行 指令 打包 到 VLIW 指令 中 ,才能 提高 VLIW 处 
理 器 中 功能 单元 的 利用 率 ,充分 发 挥 VLIW 处 理 器 的 性 能 优势 。 使 用 6. 1 节 介 绍 的 基本 指 
令 调 度 和 循环 展开 技术 以 及 6.2 节 介 绍 的 全 局 指令 调度 技术 都 能 够 有 效 识别 哪些 指令 可 以 
并 行 执行 。 下 面 通过 一 个 例子 来 看 看 VLIW 技术 的 效果 。 

例 6.3 假设 某 VLIW 处 理 器 每 个 时 钟 周期 可 以 同时 流出 5 个 操作 ,包括 2 个 访 存 操 
作 ,2 个 浮 点 操作 以 及 1 个 整数 或 分 支 操作 。 将 例 6. 1 中 的 代码 循环 展开 ,并 调度 到 该 
VLIW 处 理 器 上 执行 。 循 环 展开 次 数 不 定 ,但 至 少 要 能 够 保证 消除 所 有 流水 线 “ 空 转 ” 周 期 ， 
同时 不 考虑 分 支 延 迟 。 

解 ”调度 后 的 代码 如 图 6. 5 所 示 。 循 环 被 展开 7 次 ,经 调度 后 可 以 消除 所 有 流水 线 “ 空 
转 ”。 在 不 考虑 分 支 延 迟 的 情况 下 ,每 执行 一 个 迭代 需要 9 个 时 钟 周期 ,计算 出 7 个 结果 , 即 
平均 每 得 到 一 个 结果 需要 1. 29 个 周期 。 


如 图 6. 5 所 示 的 代码 中 含有 9 条 指令 ,最 多 可 容纳 45 个 操作 ,但 实际 上 只 包含 23 个 操 
作 ,其 余 22 个 均 为 空 操作 (nop) ,编码 效率 仅 比 50% 略 高 一 些 , 可 见 VLIW 处 理 器 目标 代码 


图 6.5 例 6.3 调度 后 的 结果 


访 存 操作 1 访 存 操作 2 浮 点 操作 1 浮 点 操作 2 整数 分 支 操作 

L.DF0，O(RD L.DF6, -8(R1) nop nop nop 
L.DF10, -16(R1) | L.DF14, -24(R1) nop nop nop 
L.DF18，-32(R1) | L.DF22, -40(R1) ADD.D F4, FO0, F2 ADD.D F8, F6, F2 nop 
L.D F26, —48(R1) nop ADD.D F12, F10, F2 | ADD.D F16，F14，F2 nop 
nop nop ADD.D F20, F18, F2 | ADD.D F24, F22, F2 nop 
S.D O(R1), F4 S.D—8(R1), F8 ADD.D F28, F26, F2 nop nop 
S.D -16(R1)，F12 | S.D -24(R1)，F16 nop nop nop 

S.D—32(R1), F20 | S.D—40(R1), F24 nop nop DADDUI R1, RI1, #56 

S.D 8(R1), F28 nop nop nop BNE R1, R2, Loop 
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的 体积 比 超标 量 的 大 得 多 。 此 外 ,与 单 流出 MIPS 处 理 器 相 比 ,在 VLIW 处 理 器 上 执行 这 
段 代 码 所 需要 的 寄存 器 数量 也 大 大 增加 本 例 中 需要 至 少 8 个 浮 点 寄存 器 ,而 例 6. 1 和 
例 6.2 中 在 MIPS 处 理 器 上 循环 展开 前 仅 需要 2 个 浮 点 寄存 器 ,即使 循环 展开 后 ,也 只 需要 
5 个 。 这 就 是 说 ,尽管 VLIW 处 理 器 不 像 超 标量 处 理 器 那样 需要 复杂 的 硬件 指令 流出 逻辑 ， 
但 它 必 须 提 供 更 加 丰富 的 资源 ,用 以 消除 指令 间 RAW 和 WAW 类 型 的 数据 相关 。 

造成 VLIW 目标 代码 编码 效率 低 的 原因 主要 有 两 个 : 四 为 了 消除 流水 线 “ 空 转 ? 需 要 增 
加 循环 展开 的 次 数 ,如 例 6. 3 中 循环 被 展开 了 7 次 ,而 例 6. 2 中 只 需 展开 5 次 即 可 ,这 增加 
了 目标 代码 的 体积 ;@ 很 难 从 应 用 程序 中 找到 足够 多 的 并 行 指令 填 满 VLIW 指令 中 的 每 一 
个 槽 ,如 例 6. 3 中 的 空 操作 接近 半数 ,实际 应 用 中 还 经 常会 出 现 一 条 VLIW 指令 中 所 有 操 
作 都 是 nop 的 情况 。 使 用 代码 压缩 /还 原 技术 可 以 减少 VLIW 目标 代码 体积 过 大 带 来 的 性 
能 损失 : VLIW 目标 代码 被 压缩 后 保存 在 硬盘 中 ,只 保留 指令 中 非 nop 操作 的 信息 ;程序 运 
行 时 ,当代 码 被 加 载 到 指令 Cache 或 译 码 时 再 将 其 解压 缩 ,还 原 出 所 含 的 nop 操作 。 

为 了 简化 硬件 实现 ,很 多 VLIW 处 理 器 中 没有 实现 任何 相关 检测 逻辑 ,而 是 靠 互 锁 机 
制 保证 执行 结果 的 正确 。 当 一 个 功能 单元 暂停 时 , 互 锁 机 制 将 暂停 整个 流水 线 ,从 而 保证 所 
有 功能 单元 的 同步 。 使 用 互 锁 机 制 的 主要 原因 是 一 些 操作 的 延迟 在 编译 时 无 法 确定 ,比如 
load 操作 ,由 于 编译 时 无 法 确定 它 访问 Cache 是 否 命中 ,因而 无 法 确定 其 延迟 。 出 于 性 能 上 
的 考虑 ,编译 时 通常 会 假定 这 类 操作 的 延迟 为 可 能 的 最 小 值 ,如 load 操作 的 延迟 是 Cache 
的 命中 时 间 。 这 样 , 若 运行 时 访问 Cache 不 命中 , 互 锁 机 制 将 暂停 整个 流水 线 , 直 至 load 操 
作 完 成 。 当 VLIW 指令 中 含有 较 多 数量 的 操作 槽 且 应 用 程序 中 的 访 存 操作 较 多 时 ,这 种 简 
单 的 互 锁 机 制 将 造成 较 大 的 开销 。 现 有 的 一 些 高 性 能 VLIW 处 理 器 通常 采用 软 硬 件 结合 
的 方式 解决 这 一 问题 : 编译 器 负责 保证 同时 流出 的 操作 间 没 有 相关 ,而 流水 线 硬件 则 负责 
确保 正在 运行 的 指令 在 不 满足 上 述 同步 约束 的 情况 下 也 能 得 到 正确 的 执行 结果 。 

目标 代码 兼容 性 差 是 VLIW 的 另 一 个 严重 缺陷 , 极 大 地 制约 了 VLIW 的 推广 与 应 用 。 
VLIW 的 指令 格式 与 操作 类 型 .功能 单元 的 数量 以 及 延迟 等 体系 结构 参数 密切 相关 , 当 这 些 
参数 发 生变 化 时 ,VLIW 的 指令 格式 也 将 相应 地 发 生变 化 。 要 在 同一 系列 不 同 代 的 处 理 器 
之 间 实 现 目标 代码 兼容 ,VLIW 比 超标 量 困 难得 多 。 二 进 制 翻译 或 仿真 是 解决 VLIW 目标 
代码 兼容 问题 的 可 行 方法 之 一 。 二 进 制 翻译 (Binary Translation) 是 指 将 某 个 硬件 平台 的 
二 进 制 目标 代码 翻译 为 男 一 个 平台 的 目标 代码 的 过 程 ,是 目前 在 不 同 平台 之 间 实 现 目标 代 
码 兼容 的 主要 手段 之 一 。 借 助 这 种 技术 ,可 以 在 一 个 平台 上 执行 另 一 个 平台 的 应 用 程序 ,如 
在 MIPS 上 执行 x86 应 用 程序 。 二 进 制 翻译 可 以 在 编译 时 静态 完成 ,也 可 以 在 运行 时 动态 
完成 ,是 目前 计算 系统 虚拟 化 研究 的 主要 内 容 之 一 。 

如 何 开发 出 大 量 的 指令 级 并 行 仍然 是 所 有 多 流出 处 理 器 面临 的 最 大 挑战 。 对 于 一 个 浮 
点 应 用 程序 而 言 ,如 果 通 过 简单 的 循环 展开 能 够 开发 出 足够 多 的 指令 级 并 行 ,那么 该 应 用 程 
序 在 向 量 处 理 器 上 也 极 有 可 能 高 效 地 运行 。 虽 然 目 前 尚 不 清楚 这 些 应 用 程序 在 多 流出 处 理 
器 上 的 性 能 是 否 一 定 优 于 在 向 量 处 理 器 上 的 性 能 ,但 可 以 肯定 的 是 : 与 向 量 处 理 器 相 比 ,多 
流出 处 理 器 至 少 具 有 以 下 两 个 优势 : 即使 对 于 一 些 结构 不 规则 的 代码 ,多 流出 处 理 器 也 
能 从 中 挖掘 出 一 些 指令 级 并 行 ;@ 多 流出 处 理 器 对 存储 系统 没有 过 高 的 要 求 .价格 较 便宜 、 
由 Cache 和 主 存 构成 的 多 层次 存储 子 系统 即 可 满足 其 对 性 能 的 要 求 。 正 因为 如 此 ,多 流出 
处 理 器 已 成 为 当前 实现 指令 级 并 行 的 主要 选择 ,而 向 量 处 理 器 则 通常 作为 协 处 理 器 集成 到 
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计算 机 系统 中 ,以 加 速 特定 类 型 的 应 用 程序 。 
6.4 显 式 并 行 指令 计算 


超标 量 和 VLIW 是 开发 指令 级 并 行 的 两 种 极端 结构 ,前 者 完全 依赖 流水 线 硬件 动态 识 
别 出 可 并 行 的 指令 ,并 将 它们 分 发 给 相应 的 功能 单元 执行 .后 者 则 将 指令 级 并 行 的 开发 工作 
全 部 交 给 编译 器 完成 ,在 编译 时 静态 确定 每 条 指令 的 流出 时 刻 和 执行 延迟 , 仅 依 赖 简 单 的 流 
水 线 硬件 确保 在 指令 实际 执行 延迟 与 编译 器 假定 的 延迟 不 一 致 时 (如 访问 Cache 不 命中 就 
会 增加 访 存 操作 的 延迟 ) ,程序 的 执行 结果 依然 正确 。 在 这 两 种 结构 中 ,单一 的 指令 级 并 行 
开发 机 制 使 得 它们 都 存在 着 严重 的 固有 缺陷 : 超标 量 结构 硬件 复杂 度 太 高 ,学 术 界 和 工业 
界 一 致 认为 ,同时 流出 并 执行 8 条 指令 将 达到 这 种 结构 的 极限 ;VLIW 则 面临 着 严重 的 代码 
兼容 问题 ,而且 目前 VLIW 编译 器 的 智能 程度 远 远 无 法 满足 人 们 的 要 求 。 显 式 并 行 指令 计 
算 (Explicitly Parallel Instruction Computing,EPIC) 技 术 正 是 为 了 解决 这 两 种 结构 的 本 质 
缺陷 而 提出 的 , 它 是 在 VLIW 的 基础 上 融合 了 超标 量 结构 的 一 些 优点 设计 得 到 的 ,以 期 用 
有 限 的 硬件 开销 为 代价 开发 出 更 多 的 指令 级 并 行 。 

EPIC 结构 充分 利用 编译 器 和 流水 线 硬件 的 协同 能 力 开发 更 多 的 指令 级 并 行 。 编 译 器 
根据 对 程序 运行 特征 的 统计 信息 ,如 分 支 指令 转 移 成 功 的 概率 .访问 Cache 命中 的 概率 等 ， 
通过 踪迹 调度 . 超 块 调度 等 带 有 极 强 猜测 性 的 编译 优化 技术 从 应 用 程序 中 尽 可 能 多 地 挖掘 
指令 级 并 行 , 流 水 线 硬件 则 提供 丰富 的 计算 资源 实现 这 些 指令 级 并 行 , 并 通过 专门 的 机 制 确 
保 在 程序 执行 过 程 中 出 现 预 测 错误 时 仍然 能 得 到 正确 的 运行 结果 ,尽量 减少 由 此 引起 的 额 
外 开销 。 
一 般 来 说 ,EPIC 结构 必须 符合 以 下 两 个 基本 特点 。 第 一 ,指令 级 并 行 主 要 由 编译 器 负 
责 开发 ,处 理 器 应 为 保证 代码 正确 执行 提供 必要 的 硬件 支持 ,只 有 在 这 些 硬件 机 制 的 辅助 下 
这 些 优化 技术 才能 高 效 完成 。 第 二 ,系统 结构 必须 提供 某 种 通信 机 制 ,使 得 流水 线 硬件 能 够 
了 解 编 译 器 “安排 "好 的 指令 执行 顺序 。 但 需要 注意 的 是 ,EPIC 并 不 仅仅 是 采用 了 多 种 高 
级 编译 优化 技术 的 VLIW 结构 ,这 只 不 过 是 它 的 一 个 特征 。EPIC 的 第 二 个 特征 一 一 有 效 
的 软 硬 件 通 信 机 制 , 才 是 它 与 VLIW 之 间 的 本 质 区 别 。 

EPIC 是 在 VLIW 的 基础 上 设计 得 到 的 ,因此 它 的 指令 格式 也 与 VLIW 相似 ,编码 效率 
也 比较 低 。 特 别 是 为 了 填充 分 支 延迟 槽 ,需要 大 量 的 分 支 无 关 操 作 ,进一步 降低 了 代码 效 
率 , 而 且 随 着 处 理 器 主 频 的 提高 ,分支 延迟 (以 时 钟 周 期 为 单位 ) 越 来 越 大 ,这 一 问题 变 得 更 
加 严重 。 为 解决 这 一 问题 ,EPIC 编译 器 采用 了 多 种 高 级 优化 技术 ,如 非 绑 定 分 支 .谓词 执 
行 .前 瞻 执 行 等 ,处 理 器 则 提供 必要 的 硬件 支持 ,以 保证 经 过 这 些 优 化 后 的 代码 能 够 正确 执 
行 。 至 于 EPIC 结构 中 编译 器 与 流水 线 硬件 之 间 的 通信 机 制 .我 们 将 在 6. 6 节 结 合 IA-64 
体系 结构 进行 详细 介绍 。 


6.4.1 非 绑 定 分 支 


分 支 指令 在 执行 时 必须 完成 一 系列 “动作 ”: 计算 分 支 转 移 条件 、 生 成 分 支 目 标 地 址 、 取 
下 一 条 指令 、 译 码 并 流出 下 一 条 指令 。 尽 管 在 传统 指令 系统 中 ,每 一 条 分 支 指令 都 被 视 作 
“原子 的 ?而 独立 存在 ,但 它 完全 可 以 被 划分 为 多 条 粒度 更 小 的 指令 。 


O) 
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非 绑 定 (unbundled) 分 支 技术 就 是 基于 这 一 思想 而 提出 的 , 它 将 一 条 分 支 指令 划分 为 三 
个 独立 的 操作 进行 调度 。 这 三 个 操作 分 别 是 : 准备 操作 ,计算 分 支 目 标 地 址 ; 思 比 较 操 
作 ,计算 分 支 转移 条 件 ; @@ 转 移 操作 ,根据 分 支 转移 条 件 是 true 还 是 false, 或 改变 控制 流 或 
执行 顺序 的 下 一 条 指令 。 运 行 时 ,流水 线 硬件 根据 前 两 个 操作 的 结果 ,动态 地 将 第 三 个 操作 
转换 为 空 操作 或 无 条 件 转移 。 显 然 , 前 两 个 操作 完成 得 越 早 ,流水 线 硬件 改变 控制 流 的 时 间 
就 越 充裕 ,分支 操 作 引起 流水 线 * 空 转 ”的 可 能 性 就 越 小 。 例 如 ,在 得 到 转移 成 功 目标 地 址 
后 ,指令 预 取 模 块 就 可 以 提前 从 该 地 址 处 预 取 指令 ,而 在 计算 出 分 支 转移 条 件 后 ,就 可 以 确 
定之 前 进行 的 预 取 是 否 正确 ,并 进行 相应 的 处 理 。 分 支 转移 条 件 为 false 就 可 以 作废 这 次 不 
必要 的 预 取 。 


6.4.2 谓词 执行 


当 分 支 指令 转 移 成 功 的 概率 远大 于 或 远 小 于 转移 失败 的 概率 时 ,在 编译 时 静态 预测 这 
些 分 支 指令 的 行为 相对 容易 一 些 , 此 时 可 以 通过 循环 展开 和 全 局 指令 调度 技术 扩大 基本 块 
的 体积 ,以 便 开 发 更 多 的 指令 级 并 行 。 若 分 支 指令 转移 成 功 与 失败 的 概率 比较 接近 ,或 是 分 
支 指令 的 行为 受 输 入 集 影 响 很 大 ,这 些 编译 优化 技术 的 效果 就 没有 那么 好 了 ,控制 相关 将 成 
为 限制 指令 级 并 行 开发 的 主要 原因 ,本 小 节 介绍 的 谓词 执行 技术 能 够 很 好 地 解决 这 一 问题 。 

谓词 执行 是 一 种 特殊 的 条 件 执行 机 制 。 所 谓 条 件 执行 ,是 指 指令 的 执行 依赖 于 一 定 的 
条 件 , 当 条 件 为 真 时 指令 将 正常 执行 ,否则 将 什么 也 不 做 。MIPS、PowerPC、SPARC、x86 等 
很 多 处 理 器 都 实现 了 条 件 传输 指令 ,这 条 指令 就 是 按 条 件 执行 的 ,只 有 在 执行 条 件 为 真 时 才 
会 进行 数据 传输 。 分 支 转移 条 件 是 最 常见 的 一 种 指令 执行 条 件 , 在 if-then-else 分 支 结构 
中 , 若 分 支 转移 条 件 为 真 ,将 执行 then 部 分 的 指令 ,else 部 分 的 指令 根本 不 会 被 读 出 。 但 在 
条 件 执行 机 制 下 ,无 论 指 令 的 执行 条 件 是 否 为 真 ,指令 都 将 被 读 出 、 译 码 并 执行 ,这 是 两 者 之 
间 最 重要 的 区 别 。 利 用 条 件 执行 机 制 可 以 消除 代码 中 的 分 支 指令 ,如 下 面 的 例 6.4 所 示 。 

例 6.4 在 下 面 的 语句 中 ， 


if (B=0){S=T;} 


假设 变量 A、S、T 的 值 分 别 保 存在 寄存 器 R1、R2 和 R3 内 。 请 用 分 支 指令 和 条 件 传输 指令 
编写 功能 相同 的 汇编 代码 。 
解 ” 包 含 分 支 指令 的 MIPS 汇编 代码 如 下 。 
ENEZ RLL 
ADDU R2,R3,R0 
工 : 
而 使 用 条 件 传输 指令 时 的 汇编 代码 为 
CMVZ R2,R3,R1 
指令 CMOVZ 有 三 个 操作 数 ,R2 为 目的 操作 数 ,R1 和 R3 是 源 操作 数 , 执 行 条 件 保存 
在 寄存 器 R1 中 。 当 R1 中 的 值 为 0 时 ,R3 的 值 被 复制 到 R2 中 ,否则 R2 的 内 容 不 变 。 
借助 条 件 传 输 指令 ,可 以 将 分 支 指 令 引 起 的 控制 相关 转换 为 相对 于 分 支 转移 条 件 (R1) 
的 数据 相关 。 对 于 流水 线 处 理 器 而 言 ,这 种 转换 的 意义 在 于 ,那些 本 应 在 流水 线 前 端 ID 段 
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处 理 的 控制 相关 被 推迟 到 流水 线 后 端的 WB 段 处 理 ,为 指令 调度 提供 了 更 大 的 空间 。 而 
且 , 借 助 这 种 转换 ,可 以 删除 代码 中 那些 行为 难以 预测 的 分 支 指令 ,提高 分 支 预测 的 准确 率 ， 
并 减少 由 于 分 支 预测 错误 带 来 的 性 能 损失 。 这 种 转换 技术 称 做 if 转换 (if-conversion) ,被 
应 用 于 向 量 处 理 机 中 。 

利用 条 件 传输 指令 可 以 简化 求 绝对 值 的 运算 A 二 abs(B), 它 对 应 的 高 级 语言 语句 为 


if(B<0) {A -B;} else {A=B;} 


这 个 让 then-else 结构 可 以 被 等 价 地 转换 为 下 面 的 代码 段 , 假 设 变 量 A、B 分 别 被 保存 在 寄 
存 器 Rl1 和 R2 中 。 


SUB RLRO,F2 /ar -B 
SLT R3,R2,RO /MB<0)? 若 Bx 0, 则 BB 中 的 值 为 1 否则 R3 中 的 值 为 0 
QWz RLR,R3 //B3 中 的 值 为 0 时 ,=B 


在 这 段 代码 中 ,第 一 条 指令 给 寄存 器 Rl1 赋 初 值 (一 B) ,第 二 条 指令 负责 计算 传输 条 件 并 将 
其 保存 在 寄存 器 R3 中 ,两 者 可 以 并 行 。 第 三 条 指令 则 根据 传输 条 件 修改 R1 的 值 , 当 R3 中 
的 值 为 0 即 B 三 0 时 ,Rl 中 的 值 将 被 修改 为 B, 这 样 就 完成 了 求 绝 对 值 的 操作 。 

随 着 流水 线 中 同时 流出 的 指令 数 不 断 增加 ,处 理 器 设计 者 必须 做 出 选择 : 究竟 是 增加 
分 支 处 理 单元 ,在 一 个 周期 内 完成 多 条 分 支 指令 ,还 是 采取 类 似 条 件 执行 这 样 的 机 制 来 消除 
代码 中 的 分 支 指令 。 同 时 执行 多 条 分 支 指令 难度 很 大 ,这 不 仅 是 因为 这 些 分支 指 令 之 间 也 
存在 着 控制 相关 ,而 且 流水 线 硬件 在 实现 同时 预测 两 个 分 支 的 行为 .同时 更 新 分 支 预测 表 两 
项 操作 时 也 具有 相当 的 难度 。 因 此 ,很 多 设计 者 放弃 了 第 一 种 想法 , 转 而 利用 条 件 执行 机 制 
减少 分 支 指令 引起 的 流水 线性 能 损失 。 

条 件 传输 是 最 简单 的 条 件 执行 机 制 , 当 一 个 分 支 结构 的 then 部 分 和 else 部 分 中 仅 含有 
少量 指令 时 ,这 种 机 制 的 效果 较 好 ,就 像 前 两 个 例子 那样 。 但 随 着 指令 数 的 增加 ,经 过 计 转 
换 得 到 的 条 件 传输 指令 和 条 件 计算 指令 的 数量 也 将 增加 ,这 会 大 大 降低 目标 代码 的 效率 。 
一 些 处 理 器 采用 谓词 执行 方式 来 解决 这 一 问题 。 

谓词 执行 (Predicated Execution) 则 是 给 指令 集中 的 每 条 指令 都 增加 一 个 执行 条 件 , 这 
个 执行 条 件 就 叫做 谓词 (predicate) 。 若 谓词 为 真 ,指令 就 正常 执行 ,否则 就 什么 也 不 做 ,就 
像 条 件 传输 指令 那样 。 在 谓词 执行 机 制 的 支持 下 ,一 个 if-then-else 分 支 结 构 的 then 部 分 
与 else 部 分 中 的 每 条 指令 都 可 以 被 转换 为 谓词 指令 ,then 部 分 中 所 有 指令 的 谓词 就 是 分 支 
转移 条 件 ,而 else 部 分 中 指令 的 谓词 正好 与 之 相反 。 谓 词 执行 机 制 能 够 显著 提高 全 局 指令 
调度 的 效果 ,因为 从 理论 上 来 说 ,if 转换 可 以 删除 所 有 不 构成 循环 的 分 支 指 令 , 而 从 前 面 各 
节 的 讨论 中 我 们 已 经 知道 ,它们 才 是 全 局 指令 调度 面临 的 最 大 障碍 。 

例 6.5 假设 在 一 个 周期 内 . 某 双 流出 的 超标 量 处 理 器 可 以 同时 执行 一 个 访 存 操作 和 
一 个 ALU 操作 ,或 者 仅 执行 一 个 分 支 操作 。 受 此 限制 ,下 面 这 段 汇编 代码 的 执行 效率 并 不 
高 ,表现 在 : 第 二 个 周期 只 能 流出 一 条 ALU 指令 , 访 存单 元 空闲 ; @ 当 分 支 转移 不 成 功 
时 ,BEQZ 指令 后 的 两 条 LW 指令 之 间 存 在 的 数据 相关 将 引起 流水 线 暂 停 。 试 通过 谓词 执 
行 机 制 解决 这 两 个 问题 ,减少 此 段 代 码 的 执行 开销 。 
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周期 指令 1 指令 2 
1 IW R1, 40 (FR2) RDD R3,R4,R5 
2 RDD R6,R3,R] 
3 PEQZ R10,L, 
4 IW R8,0(R10) 
5 IW R9, 0 (RS) 


解 用 LWC 表示 带 谓词 的 LW 指令 ,并 假设 该 指令 的 执行 条 件 为 谓词 不 等 于 0。 这 
样 ,BEQZ 后 的 第 一 条 LW 指令 就 可 以 被 转换 为 LWC 指令 ,并 被 调度 到 第 二 个 周期 执行 ， 
如 下 所 示 。 


周期 指令 1 指令 2 
1 IW R1, 40 (R2) RDD R3,R4,R5 
2 IC R8,20(Rl0),RI0 RDD R6,R3,RI 
3 BEQZ R10,L 
4 IW R9, 0(R8) 


显然 调度 后 代码 的 执行 时 间 缩 短 了 。 当 然 , 如 果 分 支 转移 成 功 ( 即 R10 中 的 值 为 0)， 
LWC 指令 将 被 转换 为 空 操作 ,这 虽然 不 会 影响 结果 的 正确 性 ,但 也 不 会 缩短 这 段 代码 的 执 
行 时 间 。 可 见 ,这 种 调度 具有 一 定 的 投机 性 。 

现在 ,分 支 结构 的 then 部 分 仅 有 一 条 LW 指令 , 若 将 它 也 转换 为 LWC 指令 ,BEQZ 指 
令 也 就 没有 必要 继续 保留 了 。 

谓词 执行 增加 了 异常 处 理 机 制 的 复杂 度 。 仍 以 例 6. 5 中 的 代码 为 例 ,由 于 采用 谓词 执 
行 机 制 ,无 论 R10 中 的 值 是 否 为 0,LWC 指令 都 将 被 执行 , 若 LWC 在 执行 过 程 中 产生 异常 
(如 缺 页 ) ,将 有 可 能 使 得 调度 前 后 两 段 代码 的 行为 不 一 致 ,因为 当 R10 中 的 值 为 0 时 ,在 调 
度 前 的 代码 中 这 条 指令 根本 不 会 被 执行 ,也 不 会 产生 任何 异常 ,而 调度 后 的 代码 虽然 运行 结 
果 不 变 ,但 却 引 发 了 额外 的 异常 。 因 此 .异常 处 理 机 制 需 要 根据 这 条 LWC 指令 谓词 的 值 决 
定 是 否 处 理 这 个 异常 。 

不 过 ,谓词 执行 机 制 最 复杂 的 地 方 还 不 是 异常 处 理 , 而 是 决定 何 时 将 执行 条 件 不 成 立 的 
谓词 指令 转换 为 空 操作 。 这 可 以 在 两 个 不 同时 机 进行 : 流水 线 前 端 指令 流出 时 ,或 是 流水 
线 后 端 结果 确认 时 。 但 遗憾 的 是 ,每 种 方式 都 有 其 不 足 之 处 。 若 要 在 指令 流出 前 决定 是 否 
将 其 转换 为 空 操作 ,必须 尽早 知道 谓词 的 值 ,也 就 是 分 支 转移 条 件 的 值 ,可 这 个 值 是 很 难 预 
测 的 。 这 样 ,在 谓词 指令 与 计算 分 支 条 件 的 那 条 指令 之 间 就 存在 数据 相关 ,这 个 数据 相关 极 
有 可 能 引起 流水 线 “ 空 转 ”。 第 二 种 方式 的 问题 在 于 它 降低 了 功能 单元 的 实际 利用 率 一 一 由 
于 结果 没有 被 写 回 ,功能 单元 做 了 无 用 功 。 不 过 ,对 于 多 流出 处 理 器 而 言 这 对 性 能 的 影响 并 
不 大 ,因为 在 很 多 情况 下 即使 不 执行 这 些 谓词 指令 .功能 单元 也 将 处 于 空闲 状态 ,如 例 6.5 
中 调度 前 代码 的 第 二 个 周期 。 除 非 应 用 程序 中 有 足够 多 的 指令 级 并 行 可 以 填 满 所 有 的 指令 
流出 槽 。 这 也 就 是 为 什么 现 有 的 支持 谓词 执行 机 制 的 处 理 器 都 选择 第 二 种 实现 方式 的 主要 
原因 。 
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6.4.3 前 蟾 执行 


在 例 6.5 中 ,我 们 将 谓词 指令 LWC 调度 到 分 支 指令 BEQZ 之 前 执行 ,之 所 以 能 够 这 样 
调度 ,是 因为 经 过 让 转换 ,LWC 与 BEQZ 之 间 已 经 没有 任何 控制 相关 了 。 这 种 优化 是 借助 
谓词 执行 机 制 实现 的 。 不 过 目前 仅 有 IA-64、ARM 等 少量 系统 结构 全 面 实现 了 谓词 执行 
(或 条 件 执行 ) 机 制 , 绝 大 多 数 系统 结构 只 是 部 分 地 进行 了 实现 ,如 MIPS、PowerPC、 
SPARC Intel x86 等 结构 只 是 简单 地 实现 了 条 件 传 输 指令 。 在 这 些 平台 上 ,尽管 可 以 借助 
全 局 指令 调度 技术 跨越 条 件 分 支 进 行 指令 调度 ,将 部 分 指令 调度 到 分 支 指 令 之 前 猜测 执行 ， 
但 为 了 确保 结果 的 正确 性 ,必须 增加 补偿 代码 ,这 降低 了 猜测 执行 的 性 能 受益 。EPIC 结构 
则 通过 前 瞻 执 行 机 制 解决 了 这 一 问题 。 

前 瞻 (Cspeculation) 执 行 并 不 仅仅 是 在 数据 相关 或 控制 相关 尚未 消除 的 情况 下 ,简单 地 
将 指令 调度 到 与 之 相关 的 指令 之 前 猜测 执行 , 它 还 通过 一 系列 复杂 的 硬件 机 制 完成 异常 处 
理 、 正 确 性 保证 等 工作 。 一 般 来 说 ,影响 前 瞻 执 行 效果 的 因素 主要 有 以 下 三 个 ， 

(1) 编译 器 能 力 的 高 低 , 即 编译 器 能 否 准确 识别 出 可 以 前 瞻 执 行 的 指令 ,并 在 保持 程序 
数据 流 不 变 的 前 提 下 将 它们 移 到 分 支 指令 之 前 。 有 时 可 能 需要 进行 寄存 器 重 命名 。 

(2) 异常 处 理 机 制 能 否 推迟 处 理由 被 前 瞻 执 行 的 指令 引起 的 异常 ,直到 确定 前 瞻 指 令 
确实 应 该 被 执行 后 。 在 谓词 执行 机 制 中 也 存在 类 似 的 问题 ,6. 4. 2 节 结 合 例 6. 5 已 经 进行 
了 分 析 。 

(3) 如 何 避 免 前 瞻 引 起 的 错误 。 举 个 例子 ,为 了 减少 访 存 指令 引起 的 流水 线 “ 空 转 ”, 有 
时 编译 器 会 将 load 指令 调度 到 相 邻 的 上 一 条 或 几 条 store 指令 之 前 执行 , 若 发 现 前 后 两 个 
访 存 指令 的 地 址 相同 ,如 何 保证 程序 执行 结果 依然 正确 ? 

第 一 个 因素 取决 于 究竟 采用 了 何 种 编译 优化 技术 ,在 本 章 前 面 的 讨论 中 已 经 分 析 过 这 
一 问题 。 本 小 节 将 着 重 针对 后 两 点 进行 深入 讨论 。 先 看 一 个 例子 。 

例 6.6 下 面 是 一 个 if-then-else 结构 的 C 程序 段 以 及 相应 的 MIPS 汇编 代码 段 ,其 中 
变量 A 和 B 分 别 被 保存 在 地 址 为 0C(R3) 和 0(R2) 的 存储 单元 中 。 若 分 支 转移 不 成 功 的 概 
率 很 大 ,请 利用 前 瞻 执 行 技术 将 第 二 条 LD 指令 调度 到 分 支 指令 BNEZ 前 执行 。 假 设 寄存 
器 R14 空闲 。 

C 语句 ， 


if HAO) At dielse BB; 


汇编 指令 : 
ID R1,0(R3) // 取 A 
ENEZ RL /NR 0)? 
ID RLOG2) //EEB(else 部 分 ) 
J I2 
1: DADDI RI,R1,#4 /ERA+HE4(then 部 分 ) 
I2: SD R1,0(R3) // 存 A 
解 ” 调 度 结果 如 下 。 


ID 也 ,0G3) // 取 A 


O) 
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sID R14,0 2) // 取 BB, 前瞻 执行 
Bz RL3 
DPDDT RI4,R1,#4 /AR RH4 

I3: SD R14,0 (3) /LAB 


这 段 代 码 将 按照 下 面 的 顺序 执行 : 第 一 条 指令 正常 执行 ;第 二 条 指令 为 前 瞻 执 行 ,此 处 
我 们 特地 用 sLD 表明 它 与 第 一 条 指令 的 区 别 ,取出 的 数据 保存 在 寄存 器 R14 中 ;第 三 条 是 
分 支 指令 BEQZ, 它 将 根据 分 支 转移 条 件 ( 即 R1 中 的 值 是 否 为 0) 判断 前 瞻 是 否 正确 , 若 R1 
中 的 值 为 0 就 跳 转 到 L3 并 执行 指令 SD, 由 于 此 时 变量 B 的 值 已 经 被 加 载 到 R14 中 ,通过 
这 条 指令 就 会 将 变量 B 的 值 赋 给 A ,此 时 前 瞻 正 确 ; 否 则 投机 失败 ,应 先 执行 第 四 条 指令 
DADDI, 将 R1 中 的 值 加 4, 然后 通过 下 一 条 指令 SD 将 结果 写 回 变量 A 对 应 的 存储 单元 。 

例 6.6 通过 分 支 指令 将 控制 流转 移 到 前 瞻 成 功 和 失败 的 处 理 代 码 中 ,确保 了 结果 的 正 
确 。 但 是 ,车 执行 sLD 指令 时 发 生 异 常 应 该 如 何 处 理 呢 ? 一般 说 来 ,有 4 种 方法 可 以 解决 
这 一 问题 。 在 详细 讨论 这 4 种 方法 之 前 ,我 们 先 将 程序 产生 的 异常 分 为 两 类 ,第 一 类 异常 发 
生 时 程序 执行 将 被 迫 终止 ,如 违反 存储 保护 权限 (Memory Protection Violation) 异 常 , 它 们 
被 称 为 “终止 性 (terminal) 异 常 ”; 另 一 类 异常 叫做 “可 继续 (resumable) 异 常 ”, 在 被 处 理 后 程 
序 仍 可 继续 执行 ,如 缺 页 。 显然, 必须 仔细 处 理由 错误 前 瞻 的 指令 引发 的 第 一 类 异常 。 

最 简单 的 方法 是 立即 处 理 每 个 异常 ,不管 它们 是 否 由 被 前 瞻 执 行 的 指令 引发 。 为 避免 
前 瞻 指 令 引 起 的 终止 性 异常 造成 程序 执行 结束 ,对 于 此 类 异常 只 是 简单 地 返回 一 个 未 定义 
值 即 可 ,而 不 是 立即 结束 程序 的 运行 。 这 样 , 当 前瞻 正确 时 ,正在 执行 的 程序 不 会 被 终止 ,但 
它 的 执行 结果 肯定 是 错误 的 ;而 当前 瞻 错 误 时 ,程序 也 将 继续 执行 下 去 ,只 是 处 理 该 异常 的 
返回 值 不 会 被 使 用 。 按 照 这 种 处 理 方 式 , 若 程序 的 逻辑 功能 正确 , 它 的 运行 结果 也 将 是 正确 
的 ,否则 程序 虽然 不 会 在 运行 时 终止 ,也 只 能 得 到 错误 的 运行 结果 。 对 于 某 些 应 用 程序 来 
说 ,这 种 处 理 方式 是 不 可 取 的 ,但 也 有 一 些 处 理 器 根据 这 一 思想 提供 了 快速 异常 处 理 模 式 。 

第 二 种 方法 则 借助 专门 的 检测 指令 判断 是 否 需 要 进行 异常 处 理 , 下 面 的 MIPS 汇编 代 
码 就 使 用 了 这 样 一 条 指令 SPECCK。 


ID RL,0G3) // 取 A 
sID R14,0(R2) // 取 B, 前 瞻 执 行 
EEOZ RLIL 
SPECXK 02) // 检 查 指 令 sID 是 否 产 生 异 常 
J I2 
Ll: DADDI R14,R1,# 4 //EAt4a 
I2: SD R14,0 (3) //EB 


分 支 转移 失败 意味 着 指令 sLD 应 该 被 执行 ,SPECCK 指令 将 检查 sLD 执行 时 是 否 已 
引发 异常 ,并 进行 相应 的 处 理 。 这 种 方法 的 关键 在 于 ,推迟 处 理由 前 瞻 指 令 引 发 的 异常 , 直 
到 确定 该 指令 确实 应 该 被 执行 。 

引入 SPECCK 指令 后 会 影响 目标 代码 的 效率 .为 此 人 们 又 提出 了 第 三 种 处 理 方法 , 它 
的 工作 原理 也 十 分 简单 。 首 先 为 每 个 通用 寄存 器 增加 一 个 特殊 的 状态 标志 位 poison 
位 。 前 瞻 指 令 引发 的 可 继续 异常 都 将 被 立即 处 理 , 而 当 它 引发 终止 性 异常 时 ,其 目的 寄存 器 
R 的 poison 位 将 被 置 1 ,否则 该 位 将 被 清 零 。 接 下 来 ,当前 瞻 指 令 之 后 的 另 一 条 指令 访问 R 
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时 , 若 R 的 poison 位 为 1 则 将 触发 一 个 终止 性 异常 。 可 见 , 这 种 方法 利用 寄存 器 的 poison 
位 记录 了 以 该 寄存 器 为 目标 寄存 器 的 前 瞻 指 令 在 执行 时 是 否 引起 异常 ,并 将 异常 处 理 推迟 
到 另 一 条 指令 访问 该 寄存 器 时 。 

最 后 一 种 方法 与 第 5 章 介 绍 的 基于 硬件 的 前 瞻 (Hardware Speculation) 机 制 相 似 , 也 是 
将 指令 的 执行 结果 保存 在 再 定 序 缓冲 器 内 ,并 按 指令 流出 的 顺序 依次 确认 ,但 是 前 瞻 指 令 的 
确认 时 机 却 被 推迟 ,直至 能 够 确定 该 指令 的 前 瞻 执 行 是 正确 (或 错误 ) 的 。 例 如 一 条 指令 I 
被 前 瞻 调 度 到 分 支 指令 B 之 前 执行 , 当 B 的 结果 被 确认 后 ,就 可 以 知道 1 的 这 次 前 瞻 执 行 是 
成 功 还 是 失败 了 。 如 果 工 本 应 被 执行 (前 瞻 成 功 ) ,而 且 在 前 瞻 执 行 时 触发 了 终止 性 异常 , 程 
序 将 被 立即 终止 ;如 果 工 本 不 应 被 执行 (前 瞻 失 败 ),I 引 发 的 所 有 异常 就 将 被 取消 。 这 种 处 
理 机 制 除了 需要 再 定 序 缓冲 器 等 硬件 机 制 的 支持 外 ,也 需要 在 编译 时 标 出 所 有 被 前 瞻 的 指 
令 , 以 及 这 些 指令 所 跨越 的 条 件 分 支 。 尽 管 全 局 指令 调度 技术 允许 跨越 多 个 条 件 分 支 进行 
指令 调度 ,但 测试 结果 却 表明 ,跨越 一 个 条 件 分 支 进 行 前 瞻 调 度 即 可 获得 与 跨越 多 个 分 支 调 
度 接近 的 性 能 加 速 比 ,这 样 编译 器 只 需 一 个 比特 (bit) 即 可 指明 该 前 瞻 指 令 的 执行 条 件 , 该 
位 为 1 表示 该 指令 来 自分 支 结构 的 then 部 分 ,为 0 则 表示 该 指令 来 自分 支 结构 的 else 
部 分 。 

到 目前 为 止 ,本 小 节 讨 论 的 前 瞻 执 行 都 属于 控制 前 瞻 , 即 将 指令 调度 到 条 件 分 支 之 前 执 
行 ,这 种 前 瞻 改 变 了 原 有 的 控制 相关 。 下 面 讨论 数据 前 瞻 的 处 理 ,这 是 由 于 指令 调度 破坏 了 
指令 间 的 数据 相关 而 引起 的 。 

将 load 指令 调度 到 store 指令 之 前 执行 是 最 常见 的 数据 前 瞻 调 度 。 之 所 以 这 样 进行 前 
瞻 调 度 ,主要 原因 有 两 个 : 四 由 于 缺乏 足够 的 运行 时 信息 ,如 不 知道 寄存 器 的 值 , 编 译 时 很 
难 确定 两 次 访 存 是 否 会 访问 相同 的 存储 单元 。 为 保证 正确 性 ,编译 器 总 是 会 选择 保守 的 调 
度 方法 ,认为 两 者 存在 地 址 冲突 ,但 在 很 多 情况 下 ,地 址 并 不 冲突 ; 加 尽早 完成 load 指令 有 
助 于 缩短 关键 路 径 的 长 度 。 

由 于 编译 器 仅 负 责 将 load 指令 调度 到 store 指令 之 前 ,检测 地 址 冲突 的 任务 就 交 给 流 
水 线 硬 件 完成 。 检 测 方法 为 : 当 load 指令 前 瞻 执 行 时 ,流水线 硬 件 会 将 它 访 存 的 地 址 记录 
在 一 个 特殊 的 地 址 表 中 ; 接 下 来 ,每 执行 一 条 store 指令 ,流水 线 硬件 就 将 该 指令 的 访 存 地 
址 与 地 址 表 中 的 各 有 效 项 进行 匹配 ,命中 则 说 明 出 现 地 址 冲突 ,前 瞻 失 败 ;: 若 控制 流 抵 达 
load 指令 原来 所 在 的 位 置 时 未 出 现 冲 突 , 就 说 明 前 瞻 成 功 ,流水 线 硬件 从 地 址 表 中 删除 对 
应 的 项 。 编 译 器 负责 把 一 条 特殊 的 检测 指令 放 在 load 指令 原来 所 在 的 位 置 ,执行 到 这 条 指 
令 时 车 没有 出 现 地 址 冲突 , 则 说 明 load 指令 前 瞻 成 功 。 

前 瞻 失 败 的 处 理 方式 有 两 种 。 如 果 仅 有 load 指令 被 前 瞻 执 行 ,这 是 最 简单 的 情况 ,只 
需 由 检测 指令 重新 执行 这 次 load 操作 即 可 。 但 如 果 数 据 相关 于 该 load 的 其 他 指令 也 已 经 
被 执行 了 ,处 理 起 来 就 麻烦 得 多 ,需要 执行 一 段 补偿 代 码 并 重新 完成 从 load 开始 的 所 有 前 
瞻 指 令 ,这 时 检测 指令 必须 能 够 将 控制 流转 移 到 补偿 代码 开始 处 。 


6.5 开发 更 多 的 指令 级 并 行 


在 谓词 执行 或 前 瞻 执 行 等 硬件 机 制 的 配合 下 ,全 局 指令 调度 技术 已 经 能 够 很 好 地 处 理 
由 分 支 指令 引起 的 控制 相关 了 : 要 么 调度 其 他 指令 跨越 那些 比较 容易 预测 的 分 支 指令 , 进 


中 测 
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行 前 瞻 执 行 ;要 么 通过 让 转 换 删除 那些 难以 预测 的 分 支 指令 ,进行 谓词 执行 。 此 时 ,指令 间 
的 数据 相关 对 指令 级 并 行 开 发 的 限制 作用 反而 越 来 越 大 。 本 节 将 讨论 处 理 这 些 数据 相关 的 
编译 优化 技术 ,利用 这 些 技术 ,编译 时 能 够 开发 出 更 多 的 指令 级 并 行 。 

本 节 所 讨论 的 优化 技术 仍然 是 面向 循环 结构 的 ,因为 这 种 结构 中 蕴含 着 大 量 的 并 行 性 ， 
始终 是 编译 优化 的 重点 对 象 。 编 译 时 , 绝 大 多 数 指令 级 并 行 的 分 析 和 优化 在 中 间 代 码 或 目 
标 代 码 生 成 后 才 开 始 , 面 向 中 间 代 码 或 目标 代码 完成 ,但 与 循环 结构 相关 的 分 析 和 优化 通常 
需要 在 这 之 前 进行 ,而 且 是 面向 源 代码 完成 的 。 这 主要 是 因为 这 些 工作 将 首先 识别 出 程序 
中 的 循环 结构 ,并 分 析 其 中 完成 数组 元 素 访问 、 数 组 元 素 下 标 计算 等 工作 的 指令 。 对 编译 器 
而 言 ,在 源 代码 中 完成 这 些 工作 比 在 中 间 代 码 或 目标 代码 中 更 加 容易 ,因此 本 节 的 一 些 实例 
将 针对 C 代码 段 进行 分 析 。 


6.5.1 按 扬 更 多 的 循环 级 并 行 


从 一 个 循环 中 究竟 能 够 开发 出 多 少 并 行 受到 两 方面 因素 的 制约 : 四 同一 循环 兴 代 内 部 
的 指令 相关 ,这 属于 基本 指令 调度 问题 ,可 以 结合 循环 展开 技术 解决 ;@ 来 自 不 同 循环 迭代 
的 指令 之 间 的 相关 , 它 会 大 大 限制 循环 展开 的 效果 。 本 小 节 将 着 重 讨论 处 理 这 种 相关 的 编 
译 优化 技术 。 

1. 循环 携带 相关 

循环 携带 相关 (Loop-carried Dependence) 是 限制 循环 结构 并 行 性 开发 的 一 个 重要 因 
素 , 它 是 指 一 个 循环 的 某 个 迭代 中 的 指令 与 其 他 迭代 中 的 指令 之 间 的 数据 相关 。 例 6. 2 中 
的 循环 结构 很 简单 ,没有 这 种 相关 。 下 面 来 看 一 个 复杂 一 些 的 例子 。 

例 6.7 在 下 面 的 循环 中 ， 

for(i=1;i<=100;i=i+ D){ 

A[i+ 1]=A[Li+C[i]; /x* slx/ 
B[i+ 1]=B[i+A[i+ 1]; /*S2x/ 

} 

假设 数组 A、B 和 C 中 所 有 元 素 的 存储 地 址 都 互 不 相同 ,请 问 语 句 S1 与 S2 之 间 存 在 哪 
些 数据 相关 ? 〈 实 际 上 ,由 于 数组 可 能 作为 参数 在 过 程 间 传递 ,这 三 个 数组 的 个 别 元 素 可 能 
具有 相同 的 地 址 ,甚至 会 出 现 整个 数组 完全 相同 的 情况 。 为 检测 两 个 数组 是 否 有 相同 的 元 
素 或 是 否 完全 相同 ,需要 进行 复杂 的 过 程 间 分 析 。 本 章 暂 不 讨论 这 一 问题 。) 

解 Sl 和 S2 之 间 存 在 两 种 不 同类 型 的 数据 相关 : 

(1) A[i 十 1] 是 第 i 次 迭代 中 语句 Sl 的 目的 操作 数 . 它 的 源 操作 数 A[ 门 是 上 一 次 迭代 
中 语句 Sl 的 目的 操作 数 , 这 是 典型 的 RAW 数据 相关 。 由 于 引起 数据 相关 的 两 条 指令 分 属 
于 不 同 的 循环 迭代 ,所 以 这 是 循环 携带 相关 。 相 邻 两 次 迭代 中 的 语句 S2 之 间 也 存在 同样 的 
数据 相关 。 
(2) 同一 循环 近代 内 的 语句 S2 与 Sl 之 间 也 存在 RAW 数据 相关 ,因为 S2 的 源 操作 数 
Ai 十] 恰好 是 Sl 的 目的 操作 数 。 

尽管 这 两 类 数据 相关 都 是 RAW 类 型 ,但 它们 对 于 开发 指令 级 并 行 的 影响 完全 不 同 。 
下 面 是 例 6.7 中 的 循环 被 展开 两 次 后 的 结果 ,从 中 可 以 看 出 这 些 区 别 。 循 环 携带 相关 迫使 
指令 只 能 按照 所 在 迭代 的 先后 顺序 依次 执行 .例如 S3 无 法 被 调度 到 S1 之 前 ,S4 无 法 被 调 
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度 到 S2 之 前 ,因为 这 两 组 语句 均 存 在 循环 携带 相关 。 而 迭代 内 各 语句 间 的 数据 相关 对 于 各 
次 迭代 是 否 能 够 并 行 没有 任何 影响 ,只 要 保证 同一 迭代 内 存在 数据 相关 的 各 语句 之 间 的 相 兰 


对 顺序 不 变 , 多 个 循环 泛 代 就 可 以 并 行 执 行 。 例 6. 2 就 属于 这 种 情况 ,来 自 不 同和 迭代 的 4 条 
LD 指令 被 安排 在 前 4 个 周期 执行 ,实现 了 4 个 迭代 的 并 行 。 


for(i=1;i<=100;i=i+2){ 


A[i+ 1]=A[i]+C[il]; /* Sl, 来 自 第 一 个 迭代 x / 
B[i+ 1]=B[i]+A[i+ 1]; /x* S2, 来 自 第 一 个 迭代 * / 
Ri+ 2]=ALit 1]+C[lit 1]; /* Ss3, 来 自 第 二 个 迭代 x* / 
B[i+ 2]=B[it 1]+A[i+ 2]; /* S4, 来 自 第 二 个 迭代 x* / 


} 


可 见 ,循环 携带 相关 是 制约 循环 级 并 行 开发 的 主要 因素 。 所 谓 循 环 级 并 行 (Loop-Level 
Parallelism) 是 指 循 环 中 不 同 迭 代 之 间 的 并 行 , 它 的 粒度 比 指令 级 并 行 更 粗 ,因为 每 个 循环 
迭代 中 含有 多 条 指令 。 循 环 级 并 行 的 存在 意味 着 可 以 开发 出 更 多 的 指令 级 并 行 。 为 了 开发 
更 多 的 循环 级 并 行 ,必须 想 办 法 消除 不 同 迭 代 之 间 的 数据 携带 相关 。 这 是 完全 有 可 能 做 到 
的 ,如 下 面 的 例 6. 8 所 示 。 

例 6.8 在 下 面 的 循环 中 ,语句 Sl1 和 S2 之 间 存在 哪些 数据 相关 ? 该 循环 的 各 次 迭代 
是 否 可 以 并 行 执行 ?如 果 不 能 ,请 修改 其 代码 ,使 之 可 以 并 行 。 


for(i=1;i<=100;i=i+1){ 
A[i]=A[i]+B[i]; /x* Slx/ 
B[i+ 1]=C[i]+D[i]; /* S2 关 / 
} 


解 第 i 次 迭代 中 语句 Sl 的 源 操作 数 B[] 是 第 i 一 1 次 迭代 中 语句 S2 的 目的 操作 数 ， 
因此 S2 与 S1 之 间 存 在 RAW 类 型 的 循环 携带 数据 相关 。 尽 管 如 此 ,这 个 循环 仍然 是 可 以 
并 行 的 。 这 是 因为 该 循环 体 中 的 相关 没有 构成 环 : 这 两 条 语句 都 没有 使 用 它 自己 产生 的 数 
据 一 一 虽然 S1 需要 使 用 S2 的 结果 ,但 S2 却 没有 使 用 S1 的 结果 。 这 与 例 6.7 的 情况 不 同 。 
在 例 6.7 中 ,第 i 个 近代 中 语句 S1( 或 S2) 产 生 的 结果 恰好 被 用 作 下 一 次 迭代 中 同一 条 语句 
的 源 操作 数 , 即 S1( 或 S2) 与 自身 存在 数据 相关 ,这 种 相关 关系 形成 了 一 个 环 了 。 是 否 有 这 
样 的 环 存在 ,可 以 作为 判断 多 个 循环 近代 是 否 可 以 并 行 的 依据 之 一 。 

尽管 我 们 已 经 判断 出 例 6. 8 中 的 循环 携带 相关 不 会 影响 循环 级 并 行 的 开发 ,但 在 进行 
循环 展开 之 前 ,仍然 需要 对 原 有 的 代码 进行 一 定 的 修改 ,结果 如 下 。 


A[l]=A[l]+B[1]; 
for(i=1;i<=99;i=i+ 1){ 
Bli+ 1]=C[il+D[i]; /x* 原来 的 Ss2x* / 
A[i+ 1]=A[i+ 1]+B[i+ 1]; /* 原来 的 Slx / 
} 
B[101]=C[100]+ D[100]; 


@ 例 6.7 很 特殊 , 环 中 只 有 一 条 语句 , 即 S1/S2。 
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修改 的 方法 很 简单 : 循环 携带 相关 是 因为 存在 相关 的 各 条 指令 处 于 不 同 的 循环 迭代 引 
起 的 ,车 能 将 这 些 指令 放 在 同一 个 迭代 中 ,循环 携带 相关 将 自然 地 变 为 迭代 内 部 相关 。 因 
此 ,将 第 i 次 迭代 的 语句 S2 与 第 ;十 1 次 迭代 的 语句 Sl 组 合 为 一 个 新 迭代 ,并 得 到 一 个 新 
的 循环 ,该 循环 共 需 99 次 迭代 。 而 第 一 次 迭代 中 的 语句 S1(AL1]=ALI] 十 BL1]) 与 最 后 一 
次 迭代 中 的 语句 S2CBL101]=CL100] 十 DL100]) 不 属于 新 循环 的 任何 一 次 迭代 ,被 分 别 安 
排 在 新 循环 之 前 和 之 后 执行 。 这 种 变换 技术 叫做 * 软 流水 ”, 在 6. 5. 2 小 节 将 进行 详细 讨论 。 

修改 后 的 代码 中 没有 任何 循环 携带 相关 ,我 们 可 以 按照 6. 1 小 节 介 绍 的 方法 对 其 进行 
循环 展开 和 指令 调度 。 需 要 注意 的 是 ,在 进行 指令 调度 时 ,必须 保证 每 个 迭代 内 数据 相关 的 
各 条 语句 之 间 相 对 顺序 不 变 。 

有 时 ,循环 携带 相关 是 以 一 种 递归 形式 定义 的 ,如 下 面 两 个 循环 。 

for(i= 6;i<=100;i= i+ 1){ 

Y[i]=Y[i- 5]+ Y[i]; 
} 
for(i=2;i<=100;i=i+1){ 

Y[i]=Y[i- 1]+Y[i]; 

} 

其 中 第 一 个 循环 的 相关 距离 是 5, 即 第 i 次 迭代 中 的 语句 与 第 i 一 5 次 迭代 中 的 语句 之 间 存 
在 循环 携带 数据 相关 ,而 第 二 个 循环 的 相关 距离 为 1。 编译 器 必须 能 够 检测 出 这 样 一 种 北 
归 关 系 ,因为 : 中 某 些 系统 结构 (特别 是 向 量 计算 机 ) 为 递归 提供 了 专门 的 硬件 支持 ,四 这 样 
的 递归 结构 中 通常 隐藏 着 大 量 的 循环 级 并 行 . 例 如 上 面相 关 距 离 为 5 的 那个 循环 中 ,连续 的 
5 次 迭代 (Gi 十 1 一 i 十 4) 均 可 以 并 行 。 

一 般 说 来 ,相关 距离 越 大 ,循环 展开 后 能 开发 出 的 指令 级 并 行 就 越 多 。 例 如 ,将 前 面相 
关上 距离 为 1 的 循环 展开 5 次 ,新 迭代 中 的 5 条 指令 之 间 仍 然 存在 数据 相关 ,可 得 到 的 指令 级 
并 行 非常 有 限 , 而 将 相关 距离 为 5 的 那 段 循环 展开 5 次 后 .新 迭代 中 的 5 条 指令 都 是 相互 独 
立 的 ,因而 能 够 开发 出 大 量 的 指令 级 并 行 。 

2. 存储 别名 分 析 

识别 循环 携带 相关 的 方法 非常 简单 ,只 要 能 够 确定 来 自 不 同 迭 代 的 两 条 指令 按照 先 写 
后 读 、 先 读 后 写 或 连续 写 的 顺序 访问 同一 变量 即 可 。 但 高 级 语言 的 一 些 特性 增加 了 进行 这 
种 数据 相关 分 析 的 复杂 度 , 如 C/C++ 中 的 数组 .指针 以 及 FORTRAN 的 Pass-by-reference 
参数 传递 方式 等 。 例 如 ,在 引入 数组 和 指针 后 ,每 个 数组 元 素 的 地 址 可 以 有 多 种 表示 方式 ， 
例如 A[i 十 5]、A[j * 2 一 6]、&AL[LkJ 可 能 表示 数组 A 的 同一 个 元 素 ,使 得 一 个 元 素 可 能 同时 
拥有 多 个 合法 的 地 址 表达 式 ,这 种 现象 被 称 为 “存储 别名 ”。 由 于 缺少 足够 的 运行 信息 ,比如 
不 知道 索引 变量 i\j .k 的 值 . 编 译 时 很 难 确定 这 三 个 表达 式 的 值 是 否 相 同 ,也 就 无 法 确定 这 
三 条 指令 是 否 相 关 。 为 了 确保 正确 性 .编译 器 通常 会 保守 地 假设 它们 将 访问 同一 元 素 ,放弃 
进行 优化 调度 的 机 会 。 分 析 和 迭代 内 的 数据 相关 时 也 会 面临 同样 的 问题 。 下 面 来 详细 讨论 优 
化 编译 器 对 存储 别名 的 分 析 和 处 理 方法 。 

目前 ,基本 上 所 有 的 存储 别名 分 析 算 法 都 假设 数组 下 标 是 仿 射 的 。 简 单 地 说 ,如 果 一 个 
一 维 数组 A[m:nj 的 下 标 可 以 被 表示 为 形 如 aXi+tb 的 形式 ,就 称 该 数组 是 仿 射 的 (affine)， 
这 里 i 是 循环 索引 变量 ,而 m 和 nn 分 别 表示 i 取 值 的 下 界 和 上 界 。 进 一 步 ,对 于 一 个 多 维 数 
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组 ,如 果 它 每 一 维 的 下 标 都 是 仿 射 的 ,那么 它 就 是 仿 射 的 。 下 标 为 zLy[ 详 ] 的 数组 是 一 个 典 
型 的 非 仿 射 数组 。 

这 样 ,判断 访问 数组 A[m:nj 的 两 条 指令 是 否 相 关 的 问题 就 可 以 转换 为 判断 这 两 条 指 
令 所 访问 的 数组 元 素 是 否 具有 相同 的 下 标 。 假 设 用 下 标 a Xj 二 6b 将 数组 A 的 一 个 元 素 写 
入 存储 器 ,而 用 下 标 cXk 十 d 将 数组 A 的 一 个 元 素 从 存储 器 中 读 出 ,这 里 j 和 k 都 是 循环 索 
引 变量 ,mj, kn。 显 然 , 当 且 仅 当 a Xj 十 b 二 cXk 十 d 时 ,这 两 条 指令 将 会 访问 数组 A 
的 同一 个 元 素 。 但 在 编译 时 很 难 判断 该 等 式 是 否 成 立 , 除 非 a.6、c、d 的 值 都 是 已 知 的 。 若 
acsd 的 值 都 是 已 知 的 , 则 可 以 通过 最 大 公 因 数 (Greatest Common Divisor,GCD) 测 试 法 
检测 是 否 存在 存储 别名 。GCD 测试 方法 可 简单 地 描述 为 ,如 果 GCD(c,a) 可 以 整除 (d 一 
5) ,那么 有 可 能 存在 存储 别名 。 

例 6.9 使 用 GCD 测试 方法 判断 下 面 的 循环 中 是 否 存在 存储 别名 。 

for(i=1;i<=100;i= i+ 1){ 

x[2x i+ 3]=x[2x ix 5.0; 
} 


解 ” 在 这 个 循环 中 ,a 二 2,6==3,c 二 2,d 二 0, 那 么 GCD(a, c)==2, 而 d 一 6 二 一 3。 由 于 2 
不 能 整除 一 3, 因 此 没有 存储 别名 , 即 无 论 i 取 何 值 ,x[2 * i 十 3] 与 x[2 * 门 都 将 表示 数组 zx 
的 不 同 元 素 。 

如 果 GCD 测试 的 结果 为 假 (不 能 整除 ) ,那么 一 定 没有 存储 别名 存在 。 但 有 时 即使 
GCD 的 测试 结果 为 真 (可 以 整除 ) ,也 没有 存储 别名 ,在 进行 GCD 测试 时 如 果 没 有 考虑 到 循 
环 的 边界 条 件 就 有 可 能 得 到 这 样 的 结果 。 

3. 数据 相关 分 析 

除了 检测 指令 之 间 是 否 存在 数据 相关 外 ,编译 器 还 会 将 识别 出 的 数据 相关 进一步 细 分 
为 真 数据 相关 、 输 出 相关 和 反 相 关 等 不 同类 型 ,以 便利 用 不 同 的 优化 技术 消除 这 些 相关 。 常 
用 的 优化 技术 包括 重 命名 、 值 传播 .高度 消减 等 。 下 面 将 讨论 这 些 技术 的 基本 原理 。 

例 6.10 找 出 下 面 循 环 中 的 所 有 数据 相关 ,指出 它们 究竟 是 真 数据 相关 、 输 出 相关 ,还 
是 反 相关 ,并 利用 重 命 名 技术 消除 其 中 的 输出 相关 和 反 相 关 。 


for(i=1;i<=100;i=i+1){ 


Y[i]=X[i]/a; /x* Slx*/ 
X[i]=X[i]+a; /< Ss2x/ 
2Z[i]=Y[i]t+a; /x S3x / 
Y[il=a- Y[i]; /x* S4x / 


解 这 4 条 语句 中 存在 以 下 相关 : 

(1) 因为 对 数组 元 素 Y[ 门 的 读 访问 和 写 访问 .S3 与 Sl1 和 S4 与 Sl 之 间 分 别 存在 真 数 
据 相 关 。 由 于 不 是 循环 携带 相关 ,它们 不 会 妨碍 我 们 将 这 段 循环 展开 ,但 却 限制 了 S3、S4 
不 能 被 调度 到 Sl 之 前 执行 。 

(2) 因为 对 数组 元 素 X[ 门 的 写 访问 和 读 访问 ,S2 和 S1 之 间 存 在 反 相关 。 

(3) 因为 对 数组 元 素 Y[ 疏 的 写 访问 和 读 访 问 ,S3 和 S4 之 间 存 在 反 相关 。 
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(4) Sl 和 S4 之 间 存 在 关于 数组 元 素 Y[i] 的 输出 相关 。 
将 原 代码 变换 为 下 面 的 形式 ,可 以 消除 所 有 的 输出 相关 和 反 相 关 。 
for(i=1;i<=100;i=i+1){ 

/* 将 数组 Y 重 命名 为 了 以 消除 输出 相关 * / 

T[i]=X[i]/c; 

/* 将 数组 X 重 命名 为 区 以 消除 反 相关 * / 

XI[i]=X[il+c; 

/* 将 Y 重 命名 为 了 以 消除 反 相 关 * / 

2[i]=T[i]l+c; 

Y[i]=c- T[i]; 
} 


需要 注意 的 是 ,由 于 循环 中 数组 X 被 重 命名 为 X1, 编 译 器 还 应 将 循环 后 的 所 有 语句 中 
的 X 替换 为 X1。 另 外 ,在 本 例 中 只 需要 对 变量 重 命名 即 可 ,不必 进 行 值 传播 优化 。 
重 命 名 优化 通过 引入 新 的 变量 消除 输出 相关 或 反 相关 ,而 值 传播 优化 则 是 通过 将 变量 
替换 为 已 知 的 值 或 表达 式 以 达到 消除 数据 相关 的 目的 的 。 通 过 值 传播 优化 ,可 以 将 存在 相 
关 的 两 条 或 多 条 指令 合并 为 一 条 。 请 看 下 面 的 例子 。 


DADDUI RI1,R2,#4 
DADDUI RI1,R1,#4 


通过 值 传播 优化 ,这 两 条 指令 可 被 合并 为 一 条 。 
DRDDUT 。 RLR2,#8 


实际 上 ,在 前 面 的 例 6. 2 中 ,我们 已 经 见 过 这 种 优化 的 效果 一 一 循环 展开 后 多 条 修改 循环 索 
引 变 量 的 语句 被 合并 为 一 条 ,就 是 值 传播 优化 的 结果 。 值 传播 优化 主要 是 通过 合并 表达 式 
中 的 常数 项 完成 的 。 仍 以 上 面 的 代码 为 例 ,对 应 的 表达 式 为 R1=R2 十 4 十 4, 这 是 一 个 三 操 
作 数 加 法 ,需要 两 条 汇编 指令 。 编 译 时 常数 子 表达 式 4 十 4 的 值 将 被 计算 出 来 , 原 表 达 式 也 
被 简化 为 一 个 二 操作 数 加 法 ,用 一 条 汇编 指令 即 可 表示 。 

对 于 多 流出 处 理 器 ,简单 地 减少 指令 数量 并 不 一 定 能 够 真正 缩短 执行 时 间 , 只 有 缩短 这 
些 指令 所 构成 的 数据 流 图 中 关键 路 径 的 长 度 才 能 真正 获得 性 能 提升 。 高 度 削减 (Tree 
Height Reduction) 是 解决 这 一 问题 的 有 效 方法 之 一 。 以 下 面 三 条 指令 为 例 : 


RDD Rl,R2,R3 /x*I1*/ 
RDD R4,RLR6 /x*xI2x*/ 
RDD R8B,R4RI /xI3*/ 


指令 I2 与 II3 与 I2 之 间 均 分 别 存在 真 数据 相关 ,因此 执行 这 三 条 指令 共 需 要 三 个 周期 ， 
即 这 段 代码 的 数据 流 图 的 关键 路 径 长 度 为 3。 将 它们 等 价 地 转换 为 下 面 的 代码 后 ,尽管 指 
令 总 数 没有 改变 ,但 数据 流 图 关键 路 径 的 长 度 却 由 3 减少 为 2, 执 行 时 间 缩 短 了 一 个 周期 。 

RDD 了 R,R2,R3 

RDD R4,R6,R7 

ADD R8,RL,R4 


篆 售 级 并 行 的 开发 一 款 件 方法 


在 上 面 的 例子 中 ,高 度 消减 优化 借助 加 法 运算 的 交换 律 和 组 合 律 消除 指令 间 的 真 数据 
相关 ,这 种 优化 对 经 过 循环 展开 后 的 指令 往往 能 够 取得 比较 好 的 效果 。 以 下 面 的 循环 为 例 ， 
循环 体内 只 有 一 条 语句 。 

sum sumt X[i]; /x* 主 为 循环 索引 变量 * / 

这 个 循环 中 含有 相关 距离 为 1 的 循环 携带 相关 。 经 循环 展开 5 次 后 可 得 到 下 面 5 条 指令 。 


Sum= sumt X[i]; 

Sum= sumt X[i+ 1]; 
Sum= sumt X[i+ 2]; 
Sum= sumt X[i+ 3]; 
Sum= sumt X[i+ 4]7 


这 5 条 指令 之 间 存 在 RAW 数据 相关 使 得 它们 只 能 按照 上 面 的 顺序 依次 执行 。 但 通过 高 度 
前 减 优化 却 可 以 从 这 段 代码 中 挖掘 出 一 定 的 指令 级 并 行 ,如 下 所 示 。 


Sum= sumt X[i]; 
tl=X[it 1]+X[i+ 2]; 
t2=X[i+ 3]+X[i+ 4]; 
tl=tl+t2; 

Sum= sumt tl; 


可 以 看 出 ,尽管 高 度 削 减 优化 并 没有 减少 指令 总 数 ,但 数据 流 图 关键 路 径 的 长 度 却 被 缩短 ， 
执行 时 间 也 由 原来 的 五 个 周期 缩短 为 三 个 周期 。 


6.5.2 软 流水 


前 面 介绍 的 循环 展开 和 Trace 调度 两 种 优化 技术 都 是 通过 扩大 基本 块 的 体积 来 开发 更 
多 的 指令 级 并 行 。 本 小 节 将 讨论 另 一 种 比较 常用 的 循环 优化 技术 一 一 软 流水 。 在 6.5. 1 节 
的 例 6.8 中 ,我 们 已 经 初步 了 解 了 这 种 技术 的 作用 , 即 消除 循环 携带 相关 ,本 小 节 将 对 其 工 
作 原 理 进行 更 深入 的 分 析 。 

软 流水 (Software Pipelining) 技 术 的 核心 思想 是 从 循环 的 不 同和 迭代 中 抽取 一 部 分 指令 
(循环 控制 指令 除外 ) 拼 成 一 个 新 的 循环 迭代 ,以 便 将 同一 迭代 中 的 相关 指令 分 布 到 不 同 的 
迭代 中 ,或 将 不 同和 迭代 中 的 相关 指令 封装 到 同一 迭代 中 。 之 所 以 不 考虑 循环 控制 指令 ,是 因 
为 在 软 流 水 处 理 之 前 和 之 后 的 循环 中 都 需要 这 些 指 令 对 整个 循环 的 控制 流 进 行 处 理 。 
例 6. 8 正 是 借助 软 流水 的 第 二 个 功能 消除 了 循环 携带 相关 。 

软 流水 的 工作 原理 如 图 6. 6 所 示 . 其 中 阴影 部 分 表示 得 到 的 新 迭代 , 它 包含 了 原 循环 从 
代 0 一 4 中 的 指令 ,执行 这 个 新 的 迭代 就 同时 执行 了 原 循环 中 的 迭代 0 一 4, 只 不 过 每 个 迭代 
只 有 一 部 分 指令 被 执行 ,而 且 各 不 相同 ,或 者 说 每 个 迭代 处 于 不 同 的 执行 阶段 ,就 像 在 
图 3.17 中 的 5 级 流水 线 中 同时 执行 的 5 条 指令 一 样 。 这 项 技术 构造 了 一 条 虚拟 的 “流水 
线 ”, 它 以 流水 的 方式 同时 执行 循环 中 的 多 个 不 同 迭 代 , 这 就 是 “ 软 流水 ”这 一 名 称 的 由 来 。 
与 硬件 流水 线 一 样 ,这 条 软件 “流水 线 ” 也 需要 一 定时 间 才 能 充满 (或 排 空 ) ,但 与 硬件 流水 线 
不 同 的 是 ,用 于 充满 (或 排 空 ) 软 件 * 流 水 线 ? 的 指令 无 法 被 封装 到 任何 一 个 新 的 迭代 中 ,只 能 
放 在 新 循环 之 前 (或 之 后 ) 。 
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和 迭代 0 
和 迭代 1 


软 流水 形成 
的 新 迭代 


L_ 


迄 代 2 
迭代 3 
迭代 4 


图 6.6 软 流水 示意 图 


例 6.11 试用 软 流水 技术 处 理 例 6.1 中 的 循环 ,假设 数组 x 有 n 个 元 素 。 
解 ” 软 流水 需要 从 原 循环 的 多 个 迭代 中 选择 指令 拼 成 新 的 循环 ,因此 首先 将 原 循环 展开 。 
下 面 是 将 例 6. 1 中 的 循环 展开 三 次 后 的 结果 ,其 中 忽略 了 循环 控制 指令 DADDUI 和 BNE。 


迭代 去: ;修改 xD 并 保存 


L.D FO0,0R1) 
RDD.D Fd, FO0,F2 
5s.D Fy,0(R1) 

和 迭代 计 1: ;修改 x[ 二 1] 并 保存 
L.D FO0,0R1) 
anD.D 到 到 本 
S.D F4,0(R1) 

迭代 计 2: ;修改 x[i-2] 并 保存 
LD HD,0R1) 
RDD.D Ed4,E0,E2 
S.D Ed,0GD) 


我 们 从 这 三 个 迭代 中 分 别 选 出 一 条 指令 (如 粗 斜 体 所 示 ) ,与 原 有 的 循环 控制 指令 拼 在 
一 起 得 到 一 个 新 的 迭代 ,如 下 所 示 。 新 循环 的 结束 条 件 仍 为 Rl 与 R2 中 的 值 相等 。 当 进行 
第 一 次 迭代 时 ,指令 1 将 保存 数组 的 最 后 一 个 元 素 x[nj], 对 应 的 取 z[z] (指令 I) 与 修改 
Zz[nj( 指 令 1 ) 两 个 操作 只 能 在 新 循环 的 第 一 次 近代 之 前 完成 ;指令 I 将 修改 数组 的 倒数 第 
二 个 元 素 zx[n 一 1j, 对 应 的 取 zx[n 一 1j( 指 令 1) 操 作 也 只 能 在 第 一 次 迭代 前 完成 ,而 存 
Zz[Ln 一 1J 操 作 将 在 新 循环 的 第 二 次 迭代 中 进行 ;指令 了 将 处 理 数组 的 倒数 第 三 个 元 素 
Zz[n 一 2j] 的 取出 ,对 应 的 修改 xzLn 一 2] 与 存 xLn 一 2] 操 作 将 分 别 在 新 循环 的 第 二 和 第 三 次 迭 
代 中 进行 。 可见, 新 循环 是 从 数组 的 倒数 第 三 个 元 素 xz[n 一 2] 开 始 从 头 处 理 的 ,元 素 zx[n] 
与 xLn 一 1 只 是 从 半途 开始 处 理 .因此 循环 开始 时 R1 中 应 保存 元 素 x[Ln 一 2j 的 地 址 , 即 应 
将 R1 中 的 值 减 去 16( 指 令 )。 


DRDDUT RI,RI,#-16 /五 : 也 保存 xm-2] 的 地 址 
L.D F0,16(R1) /下 : 取 xm] 
RDD.D Fd, FO0,F2 //E: xln]=x[n]+ F2 
L.D FO0,8(R1) 1/ 二: 取 x[m-1] 
Ioop: S.D F4,16(R1) //: 存 x[i+ 2] 


RDD.D E4,E0,E2 //Ts: X[i+ 1]=X[i+ 1]+F2 


指令 级 并 行 的 开发 一 一 黎 件 方法 


L.D FE0,0GD) // 石 : 取 x[ 

BE R1,R2,Iop //E 

DADDUT RI,RI,#-8 // 互 : 填充 分 支 延迟 模 
S.D FO0,8®1) //To: 存 x[2] 

RDD.D F4,F0,F2 //Is: x[1]=x[1]+F2 
S.D F4,0(R1) /Ta: 存 xD] 


而 新 循环 的 最 后 一 次 迭代 只 是 处 理 完了 数组 的 第 三 个 元 素 zL3], 第 二 个 元 素 z[2] 刚 
被 修改 完 ,结果 尚未 写 回 ,第 一 个 元 素 x[1] 则 是 刚 被 取出 ,需要 被 修改 并 写 回 。 这 三 个 操作 
(Do 一 Dz) 只 能 留 在 新 循环 之 后 进行 。 将 DADDUI 指令 调度 到 BNE 指令 的 分 支 延迟 槽 后 ， 
新 的 循环 迭代 中 将 没有 任何 “空转 ”周期 ,车 不 考虑 新 循环 前 后 的 6 条 指令 , 则 得 到 一 个 结果 
平均 需要 5 个 时 钟 周期 。 

新 循环 的 每 个 迭代 同时 处 理 了 数组 zx 的 三 个 元 素 , 相 当 于 流水 执行 了 原 循环 的 三 个 迭 
代 。 但 是 ,为 了 充满 和 排 空 这 条 “流水 线 ”, 需 要 将 指令 了 上 一 1 安排 在 新 循环 前 ,而 将 指令 
Do 一 Ds 安 排 在 新 循环 之 后 。 

软 流水 经 常 与 循环 展开 结合 在 一 起 使 用 ,除了 需要 从 展开 后 的 迭代 中 选择 指令 组 成 新 
的 迭代 外 ,对 于 那些 迭代 中 有 和 较 多 “空转 ”周期 的 循环 ,在 进行 软 流水 前 往往 也 只 有 先进 行 循 
环 展开 才能 获得 比较 理想 的 效果 。 不 过 ,这 两 种 技术 所 消除 的 流水 线 开 销 是 完全 不 同 的 ， 
循环 展开 主要 减少 由 分 支 指令 和 修改 循环 索引 变量 的 指令 所 引起 的 循环 控制 开销 ,如 将 某 
循环 展开 4 次 后 ,循环 控制 开销 将 减少 为 原来 的 四 分 之 一 ,但 执行 每 个 迭代 时 ,用 于 充满 和 
排 空 流水 线 的 开销 并 不 会 减少 。 软 流水 则 恰恰 减少 了 这 部 分 开销 ,使 迭代 内 的 指令 级 并 行 
达到 最 大 。 图 6.7 比较 了 软 流水 与 循环 展开 的 执行 模式 ,图 中 的 阴影 部 分 表示 可 并 行 的 指 
令 数 尚未 达到 最 大 。 对 于 软 流水 , 仅 当 充满 和 排 空 软 流水 线 时 才 会 出 现 这 种 情况 ;而 对 于 循 
环 展开 ,这 种 情况 会 出 现 m/n 次 ,也 就 是 展开 后 循环 的 迭代 次 数 ,这 里 mm 为 展开 前 循环 的 和 
代 次 数 ,n 则 为 展开 次 数 。 不 过 ,增加 循环 展开 的 次 数 有 可 能 减少 这 部 分 开销 ,但 这 是 以 增 
大 目标 代码 的 体积 为 代价 得 到 的 。 而 软 流水 对 代码 体积 的 影响 较 小 ,这 是 它 的 另 一 个 优点 。 


可 并 行 的 
指令 
时 间 
(a) 软 流水 
可 并 行 的 
指令 数 
时 间 
(b) 循环 展开 


图 6.7 软 流水 与 循环 展开 的 比较 
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6.6 实例 : IA-64 体系 结构 


本 章 前 面 的 几 节 系 统 地 介绍 了 开发 指令 级 并 行 的 软件 方法 ,包括 基本 指令 调度 技术 , 循 
环 展 开 和 全 局 指令 调度 等 消除 控制 相关 的 软件 技术 ,循环 携带 相关 、 存 储 别名 分 析 等 数据 相 
关 的 分 析 方 法 以 及 软 流水 、 重 命名 、 值 传播 和 高 度 消减 等 消除 数据 相关 的 软件 技术 ,以 及 谓 
词 执 行 . 前 瞻 执 行 等 辅助 上 述 软 件 技术 的 硬件 支撑 机 制 。 基 于 VLIW 和 EPIC 体系 结构 的 
处 理 器 结合 使 用 这 些 软 件 方法 和 硬件 机 制 ,大 大 提高 了 其 开发 指令 级 并 行 的 能 力 。 

本 节 以 IA-64 体系 结构 为 例 介绍 这 些 软 件 技术 和 硬件 机 制 在 实际 处 理 器 设计 中 的 应 
用 。IA-64 是 Intel 与 HP 合作 研制 出 的 64 位 EPIC 体系 结构 ,其 设计 遵循 以 下 原则 : 

(1) 按照 EPIC 的 思想 开发 指令 级 并 行 ; 

(2) 提供 大 量 的 硬件 资源 实现 指令 级 并 行 ; 

(3) 提供 一 系列 辅助 软件 指令 级 并 行 开发 技术 的 硬件 机 制 。 

Itanium( 安 腾 ) 则 是 Intel 于 2001 年 5 月 推出 的 第 一 款 基 于 IA-64 的 64 位 处 理 器 芯片 ， 
主 频 为 800MHz, 是 IPF(Itanium Processor Family) 系 列 处 理 器 的 第 一 代 产 品 。 它 在 结构 
上 的 主要 特点 如 下 : 

(1) 采用 三 级 Cache, 第 一 级 为 分 离 的 指令 和 数据 Cache, 后 两 级 为 混合 Cache, 第 三 级 
Cache 在 片 外 ; 

(2) 流水 线 共 分 为 10 级 ,其 中 实现 了 一 些 基于 硬件 的 动态 指令 调度 机 制 , 如 分 支 预 测 、 
重 命名 、 记 分 牌 等 ; 

(3) 提供 了 丰富 的 功能 单元 ,包括 两 个 I 单元、 两 个 M 单元 ,三 个 已 单元 和 两 个 下 单元 
(后 面 的 表 6.2 对 这 些 功能 单元 的 类 型 和 功能 进行 了 详细 说 明 ) ,所 有 的 功能 单元 都 是 流 
水 的 ; 

(4) 每 个 周期 最 多 流出 6 条 指令 ,最 多 可 同时 执行 三 条 分 支 指令 和 两 个 访 存 操作 ,提高 
了 分 支 处 理 和 存储 访问 的 能 力 。 

那么 Itanium 的 性 能 究竟 如 何 呢 ? 以 SPECint 2000 为 基准 程序 的 测试 结果 表明 , 主 频 
为 800MHz 的 Itanium 性 能 仅 为 2GHz 主 频 Pentium 4 的 60% ,1GHz 主 频 Alpha 21264 的 
68% 。 而 且 尽 管 Alpha 21264 主 频 更 高 ,其 功 耗 却 比 Itanium 低 20%。 不 过 ,虽然 Itanium 
的 整数 性 能 无 法 令 人 满意 ,但 它 的 浮 点 性 能 却 超过 了 Pentium 和 Alpha 21264。 以 SPECfp 
2000 为 基准 程序 的 测试 结果 表明 ,800MHz Itanium 的 性 能 是 2GHz Pentium 4 的 1.04 信 ， 
是 1GHz Alpha 21264 的 1. 20 倍 。 这 一 方面 与 应 用 程序 的 结构 特点 有 关 , 浮 点 应 用 程序 中 
通常 含有 更 多 的 指令 级 并 行 ; 另 一 方面 ,Itanium 的 三 级 Cache 结构 也 在 一 定 程 度 上 提高 了 
它 面 向 浮 点 应 用 的 性 能 。 

2002 年 6 月 Intel 推出 Itanium 2 ,其 性 能 在 不 经 过 任何 调试 和 优化 的 条 件 下 比 Itanium 
提高 50%% 一 100% 。 它 把 基于 IA-64 体系 结构 的 IPF 系列 推 向 新 的 高 度 ,进一步 显示 了 IPF 
作为 高 端 计算 机 应 用 主流 平台 的 发 展 前 景 。 

为 了 更 好 地 开发 指令 级 并 行 ,IA-64 在 体系 结构 上 进行 了 很 多 特殊 设计 ,包括 特殊 的 指 
令 编 码 格式 ,支持 谓词 执行 的 谓词 寄存 器 和 特殊 指令 ,以 及 对 前 瞻 执 行 的 支持 等 。 下 面 将 分 
别 讨论 这 些 技术 的 细节 ,以 便 大 家 更 好 地 理解 指令 级 并 行 的 开发 需要 软件 技术 和 硬件 机 制 


互相 配合 .协同 工作 这 一 重要 的 指导 思想 。 
6.6.1 IA-64 的 指令 格式 


IA-64 提供 了 大 量 功能 单元 ,用 以 并 行 执行 多 条 指令 。 
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地 口 洪 


IA-64 的 功能 单元 可 分 为 5 类 ， 


表 6.2 列 出 了 功能 单元 的 具体 类 型 以 及 每 类 功能 单元 所 完成 的 操作 类 型 
表 6.2 IA-64 功能 单元 和 操作 的 类 型 


功能 单元 类 型 操作 类 型 撒 述 操作 实例 
和 整数 ALU 运算 加 , 减 ,与 ,或 ,比较 
a 1 非 ALU 整数 运算 整数 和 多 媒体 移 位 .位 测试 .移动 
ee A 整数 ALU 运算 加 , 减 ,与 .或 ,比较 
M 访 存 操作 整数 / 浮 点 load，store 操作 
F-unit F 浮 点 操作 各 种 浮 点 运算 
Bunit B 分 支 操作 条 件 分 支 .无 条 件 分 支 .调用 
L 十 X L+X 扩展 操作 空 操作 .扩展 的 立即 数 


与 VLIW 结构 一 样 ,IA-64 也 主要 依赖 编译 器 开发 指令 级 并 行 。 编 译 器 将 所 有 可 以 并 
行 执行 的 操作 识别 出 来 , 放 在 同一 个 指令 组 (Instruction Group) 中 。 运 行 时 只 要 有 足够 多 
的 空闲 功能 单元 ,同一 指令 组 中 的 指令 就 可 以 并 行 执 行 。 这 样 ,IA-64 的 目标 代码 被 划分 为 
多 个 指令 组 ,并 按照 流出 的 时 间 顺 序 依 次 排列 ,但 编译 器 必须 显 式 地 指明 相 邻 两 个 指令 组 之 


间 的 边界 。 


由 于 指令 组 长 度 变 化 很 大 ,IA-64 将 其 拆 分 为 多 条 指令 。IA-64 的 指令 被 称 为 bundle， 
长 128 位 ,包含 123 位 操作 信息 (3 个 操作 X41 位 /操作 三 123 位 ) 和 5 位 模板 信息 。 模 板 位 
的 作用 有 两 个 : 简化 译 码 ,模板 信息 指明 了 bundle 中 三 个 操作 的 类 型 以 及 它们 分 别 需要 
在 哪 类 功能 单元 上 执行 ;@ 显 式 指出 指令 组 边界 .模板 中 定义 了 停止 位 ,用 于 指出 相 邻 两 个 
指令 组 的 边界 。 表 6. 3 列 出 了 所 有 合法 模板 的 值 ,并 说 明了 它们 的 含义 ,其 中 ; 代表 停止 
位 ,表示 所 在 的 操作 槽 是 当前 指令 组 的 最 后 一 个 操作 。 


表 6.3 IA-64 模板 值 及 其 含义 


模板 值 操作 槽 0 | 操作 档 1 | 操作 槽 2 模板 值 操作 槽 0 | 操作 槽 1 操作 档 2 
0 M I I 9 M M ICs) 
1 M I 1(s) 10 M(s) M I 
2 M ICs) I 11 M(s) M ICs) 
3 M Is) 1(s) 12 M F I 
4 M - X 13 M F ICs) 
5 M EL X(s) 14 M M F 
8 M M I 15 M M F(s) 
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续 表 
模板 值 | 操作 槽 0 | 操作 槽 1 | 操作 槽 2 | 模板 值 | 操作 槽 0 | 操作 槽 1 | 操作 槽 2 
16 M I B 23 B B B(s) 
i M ¥ B(s) 24 M M B 
18 M B B 中 M M B(s) 
19 M B B(s) 28 M F B 
22 B B B 29 M F B(s) 


下 面 通过 一 个 例子 说 明 IA-64 指令 (bundle) 的 调度 与 执行 。 为 简便 起 见 , 仍 用 MIPS 
汇编 指令 表示 IA-64 指令 。 
例 6.12 将 例 6.1 中 的 代码 展开 7 次 并 生成 IA-64 指令 ,使 得 : (1)bundle 数 最 少 ; 
(2) 执 行 时 间 最 短 。 假 设 每 时 钟 周期 可 流出 一 个 bundle,bundle 中 任何 操作 的 暂停 将 导致 
整个 流水 线 暂停 。 各 操作 延迟 如 表 6. 1 所 示 。 
解 ”调度 结果 如 表 6. 4 所 示 , 其 中 ; 表示 停止 位 ,nop 表示 空 操作 。 第 一 种 情况 下 只 有 
9 个 bundle,15 多 的 模 为 空 ,但 需要 21 个 周期 才能 完成 ;第 二 种 情况 代码 体积 和 空 棍 均 有 所 
增加 ,需要 11 个 bundle, 有 30% 的 槽 是 空 槽 ,但 执行 时 间 大 大 缩短 , 仅 用 12 个 周期 就 可 以 


一 
元 以 


表 6.4 例 6.1 在 IA 一 64 上 循环 展开 后 的 结果 


(1) bundle 最 少 。 


模 板 操作 档 0 操作 模 1 操作 档 2 执行 时 间 
9: MMI L.D Fo,0OCR1) LDF6,—8(R1) nop (s) 站 
14: M MF |L.D Fi10,—16(R1) L.D F14,—24(R1) ADD. D F4,F0,F2 有 
15: M MF |L.DF18, 一 32(R1) L.D F22 ,一 40(R1) ADD. D F8,F6 ,F2 (s) 4 
15: M MF |L.D F26,—48(R1) S.D F4.0(R1) ADD. D F12,F10,F2 (s) 6 
15: MMEF |S.DF8,—8(R1) S.D Fl2,—16(R1) ADD.D F16.Fl14,F2 (s) 9 
15: MMEF | S.DF16, 一 24(R1l) nop ADD. D F20,F18,F2 (s) 12 
15: M MF |S.D F20,—32(R1) nop ADD. D F24,F22,F2 (s) #5 
15: M MF | S.DF24, 一 40(R1) nop ADD. D F28,F26,F2 (s) 18 
15: M MF | S.DF28, 一 48(R1) DADDUI RI1.,R1,#—56 | BNE R1,R2,Loop 21 
(2) 执行 时 间 最 短 。 

模 板 操作 槽 0 操作 槽 1 操作 模 2 执行 时 间 
8: MMI L.D Fo,0OCR1) L.D F6 ,一 8(R1) nop 1 
9: MMI L.D F10,—16(R1) L.D Fl14, 一 24(R1) nop (s) 
14: MMF |L.DF]18,—32(R1) L.D F22,—40(R1) ADD. D F4,Fo,F2 六 
14: MME |L.D F26,—48(R1) nop ADD. D F8,F6 ,F2 4 
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续 表 
模 板 操作 槽 0 操作 槽 1 操作 槽 2 执行 时 间 

15: MMEF | nop nop ADD. D F12,F10,F2 (s) 5 
14: MMF | nop S.D F4,0(R1) ADD. D F16,F14,F2 6 
14: MMF | nop S.D F12,—16(R1) ADD. D F20,F18,F2 
15: MMEF | nop S.D F8, 一 8(R1) ADD. D F24,F22,F2 (s) 8 
14: MMEF | nop S.D F16, 一 24(R1) ADD. D F28,F26,F2 9 
9: MMI |S.DF20,—32(R1) |S.D F24,—40(R1) nop (s) 11 
8: MMI |S.DF28,—48(R1) | DADDUI R1,R1,#—56 | BNE R1,R2,Loop I 


除了 指令 (bundle) 格 式 外 ,IA-64 对 每 个 操作 的 格式 也 进行 了 专门 的 设计 。 例 如 每 个 
分 支 操作 有 9 位 特殊 的 信息 ,记录 了 编译 时 对 该 分 支行 为 的 预测 结果 ,运行 时 流水 线 可 以 在 
这 些 信息 的 指导 下 进行 动态 指令 调度 。 访 存 操作 也 有 类 似 的 信息 位 ,记录 了 编译 时 得 到 的 
对 它 能 够 在 哪 一 个 存储 层次 (第 一 级 Cache、 第 二 级 Cache、 第 三 级 Cache 还 是 主 存 ) 获 得 所 
需 数据 的 预测 结果 ,流水 线 硬件 可 根据 此 信息 推 知 完成 该 访 存 操作 所 需 的 延迟 。 

IA-64 借助 这 种 精心 设计 的 指令 编码 格式 更 高 效 地 将 编译 时 挖掘 出 的 指令 级 并 行 信息 
传递 给 流水 线 硬 件 。 其 实 , 在 VLIW 结构 中 ,编译 器 也 是 通过 特定 的 指令 编码 格式 与 流水 
线 硬件 通信 的 一 一 打包 在 同一 条 VLIW 指令 内 的 所 有 操作 都 是 可 并 行 的 ,而 且 每 个 槽 中 操 
作 的 类 型 也 是 确定 的 。 这 是 一 种 最 简单 的 方法 ,但 它 的 缺点 也 同样 明显 , 即 由 于 无 法 挖掘 出 
足够 多 的 并 行 操作 ,VLIW 指令 中 存在 很 多 空 槽 ,编码 效率 很 低 。 超 标量 处 理 器 中 就 没有 提 
供 这 样 的 机 制 ,因此 需要 专门 的 硬件 从 指令 窗口 中 选择 可 流出 的 指令 。 


6.6.2 IA-64 的 谓词 执行 机 制 


IA-64 实现 了 完整 的 谓词 执行 机 制 , 并 为 提高 谓词 执行 的 效率 提供 了 很 好 的 硬件 支持 。 

首先 ,IA-64 设置 了 大 量 的 谓词 寄存 器 (64 个 ) ,用 于 保存 指令 的 执行 条 件 , 每 个 谓词 寄 
存 器 的 宽度 都 是 1 位 。 

其 次 ,所 有 类 型 的 IA-64 操作 都 可 以 按照 谓词 执行 方式 执行 ,每 个 操作 41 位 编码 的 最 
低 6 位 指明 了 保存 执行 条 件 的 谓词 寄存 器 。 与 仅 支持 部 分 条 件 执行 指令 的 指令 集 相 比 ,IA- 
64 大 大 降低 了 条 件 转换 和 指令 调度 的 开销 。 例 如 ,IA-64 的 条 件 分 支 可 以 被 转换 为 带 有 谓 
词 的 无 条 件 分 支 ,对 应 谓词 寄存 器 的 值 就 是 分 支 条 件 ,这 提高 了 分 支 操作 的 效率 。 

最 后 ,为 了 更 高 效 地 确定 指令 的 执行 条 件 ( 谓 词 寄存 器 的 值 ) ,IA-64 专门 增强 了 比较 
Ccompare) 操 作 和 测试 (test) 操 作 的 功能 。 它 们 都 可 以 同时 修改 谓词 寄存 器 的 值 .这 样 就 可 
以 同时 计算 出 一 个 分 支 结构 then 部 分 和 else 部 分 各 指令 的 谓词 。IA-64 的 比较 操作 更 是 
支持 多 种 不 同 的 比较 模式 ,如 表 6. 5 所 示 。 这 些 模式 与 不 等 于 (neq)、 等 于 (eq)、 小 于 (1t)、 
无 符号 小 于 (ltu) 等 类 型 的 比较 运算 结合 在 一 起 ,可 以 同时 完成 多 个 比较 ,大 大 地 提高 了 谓 
词 的 计算 效率 。 
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表 6.5 IA-64 所 支持 的 不 同比 较 模式 


操作 
模 式 指令 后 组 = = 
目的 谓词 寄存 器 1 目的 谓词 寄存 器 2 
Normal 无 if (qp) {target 一 result} if (qp) {target 一 !result} 
ee 让 (qp) {target 一 result} if (gp) (target= !result} 
Unconditional unc 
else {target 一 0} else {target 一 0} 

and if (qp && lresult) {target=0} if (qp && lresult) {target=0} 
AND 

andcem if (qp &&. result) (target=0} if (qp &&. result) {target=0} 

or if (qp BS&& result) {target=1} if (qp &&. result) {target=1} 
OR 

orcm if (qp B&B lresult) (target=1} if (gp && lresult) {target=1} 

or. andcm if (qp && result) {target=1} if (qp && result) {target=0} 
DeMorgan 

and. orcm if (qp && lresult) {target=0} if (gp && Iresult) {target=1} 


注 : qp 表示 比较 操作 的 谓词 寄存 器 ,target 表示 目的 谓词 寄存 器 ,result 表示 比较 结果 。 
例 6.13 将 下 面 的 C 语句 转换 为 IA-64 汇编 指令 ,使 其 执行 时 间 最 短 。 
if (rl==1llr2==2|l|lr3==3llr4=4)s; 


解 ” 对 应 的 IA-64 汇编 代码 如 下 。IA-64 cmp 指令 的 格式 为 cmp. op. mod p,q = rl， 
r2, 这 里 op 为 要 进行 的 比较 操作 ,mod 为 如 表 6.5 所 示 的 比较 模式 中 的 一 种 ,p,q 为 两 个 目 
的 谓词 寄存 器 ,rl 和 r2 为 要 比较 的 操作 数 , 可 以 是 寄存 器 名 ,也 可 以 是 立即 数 。 


arp.ne pl,pO= r0,r0;; 

arm.eq.or pl,pO= 1,rl1 

am.eq.or pl,p0= 2,r2 

am.eq.or pl,p0= 3,r3 

arp.eq.or pl,p0= 4,r4;; 

(pl)s 

前 5 条 指令 都 是 无 条 件 执行 的 。 第 一 条 指令 将 谓词 寄存 器 p0 和 pl 的 值 初始 化 为 0。 
第 二 一 第 五 条 指令 分 别 完成 分 支 条件 中 一 个 子 表达 式 的 比较 ,并 根据 比较 结果 按照 模式 
OR 为 pl 和 p0 两 个 谓词 寄存 器 赋值 。 只 要 有 一 个 子 表达 式 的 结果 为 true,pl 和 p0 就 将 被 
同时 置 1, 因 此 这 4 条 指令 可 以 并 行 执行 。 第 六 条 指令 则 以 前 面 得 到 的 pl 作为 执行 条 件 。 

由 这 段 代码 可 以 得 到 三 个 IA-64 指令 组 ,第 一 、 第 六 两 条 指令 分 别 位 于 一 个 指令 组 中 ， 
而 中 间 4 条 指令 位 于 另 一 个 指令 组 中 ,代码 段 中 的 “;; "表示 指令 组 的 边界 。 


6.6.3 IA-64 的 前 蛤 执行 机 制 


IA-64 还 为 控制 前 瞻 和 数据 前 瞻 提 供 了 硬件 和 编译 支持 。 为 了 标识 被 前 瞻 执 行 的 load 
指令 并 检测 前 瞻 是 否 成 功 .IA-64 专门 设置 了 三 条 指令 : Qld. a, 表 示 被 前 瞻 执 行 的 load 指 
令 。 每 当 一 条 load 指令 被 选 出 作为 前 瞻 调 度 的 对 象 时 ,编译 器 就 会 将 它 替 换 为 ld. a。@ 检 
测 指令 ld. c, 当 编译 器 调度 load 指令 前 瞻 执 行 后 , 它 会 将 一 条 ld. c 指令 放 在 该 load 指令 最 
初 所 在 的 位 置 。 当 执行 lt.c 时 , 它 将 检测 本 次 前 瞻 是 否 成 功 。 若 前 瞻 失 败 ,1d. c 将 重新 访 
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存 并 取出 数据 。 这 种 处 理 方法 适用 于 只 有 一 条 指令 ( 即 load) 被 前 瞻 执 行 的 情况 。@chk. a， 
这 也 是 一 条 检测 指令 , 它 实现 了 另外 一 种 前 瞻 失 败 处 理 机 制 。 编 译 器 将 这 条 指令 安放 在 与 
ld.c 相同 的 位 置 。 若 执行 chk. a 时 发 现 对 应 的 load 前 瞻 执 行 失败 , 它 会 将 控制 流转 移 到 一 
段 补偿 代码 中 ,重新 执行 load 指令 及 与 之 相关 的 其 他 被 前 瞻 执 行 的 操作 。 显 然 , 这 条 指令 
适用 于 除 load 外 还 有 其 他 关于 load 的 指令 被 前 瞻 执 行 的 情况 。 编 译 器 将 决定 使 用 ld. c 还 
是 chk. a 指令 检测 前 瞻 是 否 成 功 ,因为 编译 时 可 以 确定 在 1d. a 与 对 应 的 检测 指令 之 间 究 竟 
还 有 没有 其 他 相关 指令 被 前 瞻 执 行 。 

为 检测 load 指令 的 前 瞻 执 行 是 否 成 功 ,IA-64 专门 设置 了 一 个 名 为 ALAT 的 表格 , 记 
录 被 前 瞻 调 度 的 load 指令 的 相关 信息 ,包括 目的 寄存 器 和 访 存 地 址 等 。 当 前 瞻 执 行 一 条 
load 指令 时 ,处 理 器 就 会 在 ALAT 表 中 增加 一 项 。 接 下 来 ,每 执行 一 条 store 指令 ,处 理 器 
就 会 在 该 表 中 查找 有 没有 与 其 访 存 地 址 相同 的 项 。 如 果 命 中 , 则 相应 的 ALAT 表 项 被 标 为 
invalid, 表 示 前 瞻 失 败 。 当 执行 到 检测 指令 ld.c 或 chk. a 时 ,它们 将 检查 对 应 的 1d. a 指令 
在 ALAT 表 中 的 相应 项 是 否 已 被 标 为 invalid, 是 则 说 明 前 瞻 失 败 , 应 按照 检测 指令 所 隐 含 
的 方式 进行 处 理 ;否则 表示 前 瞻 成 功 ,简单 地 删除 相应 的 ALAT 表 项 即 可 。 此 外 ,IA-64 还 
给 每 个 寄存 器 增加 了 一 个 状态 位 ,名 为 NaT(Not a Thing) ,该 位 的 含义 和 作用 与 6.4.3 小 
节 中 的 poison 位 相似 。 这 样 ,IA-64 就 可 按照 6.4.3 小 节 介绍 的 第 三 种 机 制 处 理 ld. a 指令 
引起 的 异常 了 。 


习 题 6 


6.1 解释 下 列 名 词 。 
指令 调度 循环 展开 全 局 指令 调度 关键 路 径 


补偿 代码 踪迹 调度 超 块 尾 复制 
VLIW EPIC 二 进 制 翻译 谓词 执行 
前 瞻 执 行 让 转换 循环 携带 相关 相关 距离 
GCD 测试 值 传播 高 度 削减 软 流水 


6.2 简 述 踪迹 调度 和 超 块 调度 的 基本 过 程 。 

6.3 试 比 较 循环 展开 和 软 流 水 这 两 种 编译 优化 技术 的 异同 。 

6.4 指出 下 面 这 段 C 代码 中 的 所 有 数据 相关 ,对 于 真 数据 相关 ,还 应 指明 它们 是 否 是 
循环 携带 相关 。 试 分 析 能 否 从 这 段 循环 中 开发 出 循环 级 并 行 , 并 说 明 原 因 。 


for(i=2;i< 100;i=i+ 1){ 


a[i=b[i]+a[i]7 /x Slx/ 
c[i- 1]=a[il+d[i]; /¥* S2*/ 
ali- 1]=2 * b[i]; /*S3x*/ 
bti+1]=2 * b[i]; /x S4x / 


} 


6.5 下 面 的 循环 中 含有 相关 距离 为 1 的 循环 携带 相关 ,无 法 从 中 开发 出 大 量 的 循环 级 
并 行 。 像 例 6. 8 中 那样 对 这 段 代码 进行 调整 ,使 得 多 个 循环 迭代 可 以 并 行 执行 。 


for(i=1;i< 100;i=i+1){ 
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a[i]=b[i]+c[]7 VE SLK / 
bD]=a[]+d[]7 /x Ss2x/ 
a[li+ 1]=a[il+e[li]; /*S3*/ 


} 

6.6 ”假设 某 超 标量 流水 线 能 够 同时 执行 一 条 浮 点 指令 和 一 条 整数 指令 ,当下 面 的 循环 
程序 段 在 该 流水 线 上 执行 时 ,至 少 应 被 展开 多 少 次 才能 消除 所 有 的 “空转 ”周期 。 假 设 各 指 
令 的 延迟 如 表 6. 1 所 示 。 


Ioop: L.D FD,0(R1) // 取 一 个 数组 元 素 放 入 FO 
RDD.D ~ F4,F0,F2 // 加 上 在 本 中 的 标量 
sD F4,0(R1) // 存 结果 
DRDDIU RI,RI,#-8 // 将 指针 减少 8 人 每 个 数据 占 8 个 字 节 ) 
BE Rl,R2,Iop // 著 了 不 等 于 R2, 表 示 尚 未 结束 
/| 转移 到 Ioop 继 续 


6.7 用 GCD 测试 法 判断 下 面 的 循环 中 是 否 存 在 循环 携带 的 真 数 据 相关 。 


for(i=2;i<=100;i+=2) 


a[lil=a[i- 1]; 


6.8 ”下面 是 这 段 循环 完成 点 积 (Dot Product) 运 算 , 寄 存 器 F2 的 初 值 为 0。 试 结合 使 
用 循环 展开 和 基本 指令 调度 技术 ,消除 其 中 的 所 有 流水 线 “ 空 转 ” 周 期 。 假 设 流水 线 延 迟 如 
表 6. 1 所 示 , 分 支 指令 也 会 带 来 一 个 “空转 ”周期 。 


loop: L.D FE0,0(R1) 
LD F4,0(R2) 
MIL.D FO, FO0,F4 
RDD.D E2,E0,F2 
DADDUI Rl,R1,#-8 
DRDDUT RI,R1,#-8 
BE Rl,R3, 100p 


6.9 举例 说 明 为 何 前 瞻 执 行 能 够 带 来 一 定 的 性 能 提升 ?有 哪些 方法 可 以 处 理由 前 瞻 
指令 引起 的 异常 ? 

6.10 结合 IA-64 体系 结构 分 析 谓 词 执行 机 制 需要 编译 器 和 流水 线 硬件 分 别提 供 哪些 
支持 ? 


第 章 
存储 系统 


内 容 提要 

(1) 存储 系统 的 层次 结构 ; 

(2) Cache 基本 知识 ; 

(3) 降低 Cache 的 不 命中 率 ; 

(4) 减少 Cache 的 不 命中 开销 ; 

(5) 减少 命中 时 间 ; 

(6) 并 行 主 存 系统 ; 

(7) 虚拟 存储 器 ; 

(8) 实例 : AMD Opteron 的 存储 器 层次 结构 。 


7.1 存储 系统 的 层次 结构 


7.1.1 存储 系统 的 层次 结构 概述 


存储 系统 的 性 能 直接 影响 到 整个 计算 机 系统 的 性 能 。 如 何以 合理 的 价格 ,设计 容量 和 
速度 都 满足 计算 机 系统 要 求 的 存储 器 系统 ,始终 是 计算 机 系统 结构 设计 中 关键 的 问题 之 一 。 

容量 大 、 速 度 快 .价格 低 的 存储 器 一 直 是 人 们 梦 寨 以 求 的 。 但 这 “容量 大 、 速 度 快 , 价 格 
低 ” 的 要 求 却 是 相互 矛盾 的 。 综 合 考 虑 不 同 的 存储 器 实现 技术 ,我 们 会 发 现 : 

(1) 速度 越 快 ,每 位 价格 就 越 高 ; 

(2) 容量 越 大 ,每 位 价格 就 越 低 ; 

(3) 容量 越 大 ,速度 越 慢 。 

从 实现 “容量 大 、 价 格 低 ” 的 要 求 来 看 .应 采用 能 提供 大 容量 的 存储 器 技术 ;但 从 满足 性 
能 需求 的 角度 来 看 ,又 应 采用 昂贵 且 容 量 较 小 的 快速 存储 器 。 走 出 这 种 困境 的 唯一 方法 ,就 
是 采用 多 种 存储 器 技术 ,构成 多 级 存储 层次 结构 。 

1. 程序 访问 的 局 部 性 原理 

在 展开 讨论 存储 系统 的 多 级 层次 结构 之 前 , 先 来 看 看 程序 的 一 种 特性 : 程序 访问 的 局 
部 性 原理 。 它 是 使 多 级 存储 层次 成 为 可 能 的 一 个 重要 特性 。 

程序 访问 的 局 部 性 原理 (Principle of Locality) 是 指 : 对 于 绝 大 多 数 程序 来 说 ,程序 所 访 
问 的 指令 和 数据 在 地 址 上 不 是 均匀 分 布 的 ,而 是 相对 簇 聚 的 。 程 序 访问 的 局 部 性 包含 两 个 
方面 : 时 间 局 部 性 和 空间 局 部 性 。 
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时 间 局 部 性 是 指 程序 马上 将 要 用 到 的 信息 很 可 能 就 是 现在 正在 使 用 的 信息 。 典 型 的 例 
子 是 循环 地 反复 执行 。 空 间 局 部 性 是 指 程序 马上 要 用 到 的 信息 很 可 能 与 现在 正在 使 用 的 信 
息 在 存储 空间 上 是 相 邻 的 。 这 是 因为 大 程序 和 大 数据 结构 经 常 是 按 顺序 存放 和 按 顺 序 访 
问 的 。 

2. 存储 系统 的 多 级 层次 结构 

存储 系统 的 多 级 层次 结构 如 图 7. 1 所 示 。 其 中 M ,Ms ,…,M, 是 用 不 同 技术 实现 的 存储 
器 。M 最 靠近 CPU, 它 的 速度 最 快 ,容量 最 小 ,每 位 价格 最 高 。 它 的 速度 要 快 到 与 CPU 的 速 
度 相 匹配 。 因 为 速度 快 ,所 以 其 每 位 价格 比 其 他 存储 器 都 高 ,存储 容量 也 就 比较 小 。 而 M, 则 
相反 , 离 CPU 最 远 , 速 度 最 慢 ,容量 最 大 ,每 位 价格 最 低 。 假 设 第 ;个 存储 器 M; 的 访问 时 间 为 
T; ,容量 为 Si ,平均 每 位 价格 为 C;, 则 该 存储 系统 中 个 存储 器 的 参数 满足 以 下 关系 : 

访问 时 间 Ti 三 Ts 达 … 三 TT， 

容量 S1 二 S; 二 … 过 5S, 

平均 每 位 价格 Cl 二 Cs 二 … 二 C， 

整个 存储 系统 要 达到 的 目标 是 : 从 CPU 来 看 ,该 存储 系统 的 速度 接近 于 Mi ,而 容量 和 
每 位 价格 都 接近 于 M,。 为 了 实现 这 一 目标 ,必须 做 到 : 存储 器 越 靠 近 CPU,CPU 对 它 的 访 
问 频 度 就 越 高 ,而 且 最 好 大 多 数 的 访问 都 能 在 M 完成 。 这 是 通过 利用 程序 访问 的 局 部 性 
来 实现 的 。 


存储 层次 


M, 
CPU (Ti,S1,C1) 


图 7.1 存储 系统 的 层次 结构 


M 的 容量 较 小 ,一 般 不 足以 存放 整个 程序 及 其 数据 。 但 是 ,根据 局 部 性 原理 ,我 们 只 
要 把 近期 内 CPU 访问 的 程序 和 数据 放 在 M 中 ,就 能 使 CPU 对 存储 系统 的 绝 大 多 数 访问 
都 能 在 M 中 命中 一 一 在 Mi 中 找到 所 要 的 信息 。 

在 存储 层次 中 ,各 存储 器 之 间 一 般 满足 包容 关系 . 即 任何 一 层 存 储 器 中 的 内 容 都 是 其 下 
一 层 ( 离 CPU 更 远 的 一 层 ) 存 储 器 中 的 内 容 的 子 集 。CPU 访 存 时 ,首先 访问 Mi, 若 在 Mi 
中 找 不 到 所 要 的 数据 ,就 访问 Ms ,将 包含 所 需 数据 的 块 或 页 面 调 入 Mi; 若 在 Ms 中 还 找 不 
到 ,就 要 访问 M; ;以 此 类 推 。 

CPU 与 M 之 间 传 送信 息 一 般 是 以 字 为 单位 的 .Mi 以 外 ( 含 Mi) 的 相 邻 存储 器 之 间 一 
般 以 块 或 页 面 为 单位 传送 信息 。 


7.1.2 存储 系统 的 性 能 参数 


为 简单 起 见 , 仅 考虑 由 M, 和 Mz 两 个 存储 器 构成 的 两 mi ee 
级 存储 层次 结构 ,M 的 容量 、 访 问 时 间 和 每 位 价格 分 别 为 | (1550) | (1255C;) 
Si ,Ti ,Cl ;M, 的 参数 为 S;,T;;C; ;如 图 by 所 示 。 


图 7.2 两 级 存储 层次 结构 


存储 系统 


1 存储 容量 S 2 
一 般 来 说 ,整个 存储 系统 的 容量 即 是 第 二 级 存储 器 Me。 的 容量 , 即 S 一 S,。 例 如 ,在 由 “| 入 


高 速 缓冲 存储 器 (Cache) 和 主 存 所 组 成 的 系统 中 ,存储 系统 的 容量 就 是 主 存 的 容量 。 
2. 存储 系统 的 平均 每 位 价格 C 


C_ Cs 十 Cs 


S 十 Sz 


显然 , 当 S, 一 一 S, 时 ,CC;。 

3. 命中 率 H 

命中 率 (Hit Ratio) 昌 的 定义 为 : CPU 访问 该 存储 系统 时 ,在 M, 中 找到 所 需 信息 的 概 
率 ,其 计算 公式 为 


其 中 ,Ni 和 Ns 分 别 为 访问 M 和 Ms。 的 次 数 ,可 以 通过 模拟 执行 一 组 有 代表 性 的 程序 来 
获得 。 

显然 , 互 越 接 近 1 越 好 。 为 了 突出 反映 不 命中 的 情况 ,我们 还 经 常 使 用 不 命中 率 下 这 
个 参数 。 它 是 指 CPU 访 存 时 ,在 M, 中 找 不 到 所 需 信 息 的 概率 。 显 然 ， 

F=1—H 

4. 平均 访 存 时 间 T、 

分 两 种 情况 来 考虑 CPU 的 一 次 访 存 : 

(1) 当 命 中 时 ,访问 时 间 即 为 T 。T 常 称 为 命中 时 间 (Hit-Time)。 

(2) 当 不 命中 时 ,情况 比较 复杂 。 在 大 多 数 二 级 存储 系统 中 , 若 访 问 的 字 不 在 M 中 ， 
就 必须 从 Ms 把 包含 所 要 访问 的 字 的 块 (或 页 面 ) 传 送 到 M ,之 后 CPU 才 可 在 M 中 访问 
到 这 个 字 。 假 设 传送 一 个 信息 块 所 需 的 时 间 为 Ts , 则 不 命中 时 的 访问 时 间 为 

Ts 二 Ts 二 T= TT 二 + Tx 

其 中 ,Ty 二 T; 十 Ts, 常 称 为 为 不 命中 开销 (Miss Penalty), 它 是 指 从 向 Ms 发 出 访问 请 求 到 
把 整个 数据 块 调 入 M 中 所 需 的 时 间 。 

考虑 到 命中 和 不 命中 的 概率 分 别 是 态 和 1 一 互 . 故 该 存储 系统 的 平均 访 存 时 间 为 

Ta HTy T= T= 下 JI 


或 
于 


7.1.3 三 级 存储 系统 


目前 ,大 多 数 计算 机 都 采用 了 由 Cache( 高 速 缓冲 存储 器 )、 主 存储 器 和 磁盘 存储 器 ( 辅 
存 ) 构 成 的 三 级 存储 系统 。 这 个 存储 系统 可 以 看 成 由 “Cache- 主 存 ”" 层 次 和 “ 主 存 - 辅 存 ”" 层 次 
构成 的 系统 ,如 图 7. 3 中 的 实 线 框 和 虚线 框 所 示 。 下 面 分 别 讨论 之 。 

大 家 知道 ,程序 在 执行 时 , 需 先 调 入 主 存 。 即 使 是 在 虚拟 存储 器 中 也 是 如 此 ,只 是 不 必 
一 次 全 部 调和 人 ,而 是 根据 需要 调和 人 。 因 此 ,下 面 将 从 主 存 的 角度 来 讨论 这 两 个 存储 层次 。 
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1 
Cache | -~| 主 存 -| -| 辅 存 
1 
1 
1 


图 7.3 三 级 存储 系统 


1.“Cache- 主 存 ” 层 次 

近 十 几 年 ,CPU 的 性 能 提高 得 很 快 , 在 1980 年 至 1986 年 之 间 ,CPU 性 能 以 每 年 35% 
的 速度 递增 ,而 在 1987 年 至 2000 年 之 间 ,CPU 性 能 则 是 每 年 提高 55%( 见 图 7. 4)。 但 是 ， 
主 存 性 能 的 提高 却 慢 得 多 。 例 如 ,DRAM 的 速度 每 年 只 提高 7% 。 因 此 ,CPU 和 主 存 之 间 
在 速度 上 的 差距 越 来 越 大 。 为 了 填补 这 个 差距 ,现代 计算 机 都 是 在 CPU 和 主 存 之 间 设置 
一 个 高 速 , 小 容量 (一 般 为 几 十 千 字 节 到 几 兆 字 节 ) 的 高 速 缓冲 存储 器 (Cache)。 这 个 Cache 
对 于 提高 整个 计算 机 系统 的 性 能 有 着 重要 的 意义 ,几乎 是 一 个 不 可 缺少 的 部 件 。 

图 7.5(a) 是 “Cache- 主 存 ” 层 次 的 示意 图 。 借 助 于 辅助 硬件 ,Cache 与 主 存 构成 一 个 有 
机 的 整体 ,以 弥补 主 存 速度 的 不 足 。 一 般 来 说 ,这 个 层次 的 工作 完全 由 硬件 实现 ,所 以 它 不 
但 对 应 用 程序 员 是 透明 的 ,而 且 对 系统 程序 员 也 是 透明 的 。 


ee 口 存 储 器 ACPU 


图 7.4 存储 器 和 CPU 性 能 随时 间 而 提高 的 情况 (以 1980 年 时 的 性 能 作为 基准 ) 


2.“ 主 存 - 辅 存 ” 层 次 

这 个 层次 的 目的 是 为 了 弥补 主 存 容量 的 不 足 。 它 是 在 主 存 外 面 增设 一 个 容量 更 大 、 每 
位 价格 更 低 、. 但 速度 更 慢 的 存储 器 ( 称 为 辅 存 , 一 般 是 硬盘 )。 它 们 依靠 辅助 软 硬 件 的 作用 ， 
构成 一 个 整体 ,如 图 7. 5Cb) 所 示 。"* 主 存 - 辅 存 ” 层 次 常 被 用 来 实现 虚拟 存储 器 ,向 编程 人 员 
提供 “用 不 完 ” 的 程序 空间 。 


辅助 硬件 辅助 软 硬 人 
~、 2 
4 ~、 省 ~、 
CPU Cache |- 一 一 | 主 在 CPU 主 存 -一 | 畏 存 
(a) “Cache- 主 存 " 层 次 (b) “ 主 存 - 辅 存 "层次 


图 7.5 两 种 存储 层次 


亲信 系统 


3. 两 者 的 比较 2 
表 7.1 对 “Cache- 主 存 ” 和 “ 主 存 - 辅 存 ” 层 次 做 了 一 个 简单 的 比较 。 章 
表 7.1 “Cache- 主 存 "与 “ 主 存 - 辅 存 "层次 的 区 别 

ne 存储 层次 “Cache- 主 存 "层次 “ 主 存 - 辅 存 ” 层 次 

目的 为 了 弥补 主 存 速度 的 不 足 为 了 弥补 主 存 容 量 的 不 足 

存储 管理 的 实现 全 部 由 专用 硬件 实现 主要 由 软件 实现 

访问 速度 的 比值 (第 一 级 比 第 二 级 ) | 几 比 一 几 万 比 一 

典型 的 块 (页 ) 大 小 几 十 个 到 几 百 个 字 节 几 千 个 以 上 字 节 

CPU 对 第 二 级 的 访问 方式 可 直接 访问 均 通 过 第 一 级 

不 命中 时 CPU 是 否 切换 不 切换 切换 到 其 他 进程 


7.1.4 存储 层次 的 4 个 问题 


下 面 将 展开 论述 “Cache- 主 存 ” 层 次 。 首 先 要 考虑 以 下 4 个 问题 ， 

(1) 当 把 一 个 块 (页 ) 调 入 高 一 层 (靠近 CPU) 存 储 器 时 ,可 以 放 到 哪些 位 置 上 ? (映像 规 
则 ) 

(2) 当 所 要 访问 的 块 ( 页 ) 在 高 一 层 存储 器 中 时 ,如 何 找到 该 块 ?( 查 找 算法 ) 

(3) 当 发 生 不 命中 ,而 且 高 一 层 存储 器 已 经 满 时 ,应 替换 哪 一 块 ? (替换 算法 ) 

(4) 当 进 行 写 访问 时 ,应 进行 哪些 操作 ?〈 写 策略 ) 

搞 清 楚 这 些 问题 ,对 于 理解 一 个 具体 存储 层次 的 工作 原理 以 及 设计 时 的 考虑 是 十 分 重 
要 的 。 


7.2 Cache 的 基本 知识 


7.2.1 基本 结构 和 原理 


Cache 是 按 块 进行 管理 的 。Cache 和 主 存 均 被 分 割 成 大 小 相同 的 块 。 信 息 以 块 为 单位 
调和 人 Cache。 相 应 地 ,CPU 的 访 存 地 址 被 分 割 成 两 部 分 : 块 地 址 和 块 内 位 移 , 如 下 所 示 。 


主 存 地 址 块 地 址 ”| 。 块 内 位 移 


主 存 块 地 址 ( 块 号 ) 用 于 查找 该 块 在 Cache 中 的 位 置 , 块 内 位 移 用 于 确定 所 访问 的 数据 
在 该 块 中 的 位 置 。 

图 7.6 是 Cache 的 基本 工作 原理 示意 图 。 当 CPU 要 访问 存储 器 系统 时 , 它 把 地 址 送 入 
主 存 地 址 寄存 器 .“ 主 存 ~~Cache 地 址 转换 ”部 件 判定 包含 所 访问 数据 或 指令 的 块 是 否 已 在 
Cache 中 。 如 果 在 Cache 中 ( 即 命中 ),“ 主 存 一 Cache 地 址 转换 ”部 件 就 把 主 存 地 址 中 的 块 地 
址 转换 成 Cache 块 地 址 , 放 入 Cache 地 址 寄存 器 , 块 内 位 移 保持 不 变 。 然 后 用 所 形成 的 地 址 
去 访问 Cache, 把 所 得 的 数据 或 指令 送 给 CPU。 如 果 不 在 Cache 中 ( 即 不 命中 ) ,就 需要 用 主 
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存 地 址 去 访问 主 存储 器 ,把 相应 的 块 调 人 Cache, 然 后 再 把 CPU 所 要 的 数据 或 指令 送 给 
CPU。 当 然 , 也 可 以 把 CPU 所 要 的 数据 或 指令 直接 送 给 CPU( 如 图 7.6 中 的 虚线 所 示 ) ,以 
提高 性 能 。 在 进行 调 块 前 , 需 先 判定 Cache 中 是 否 还 有 位 置 来 存放 将 调 入 的 块 。 如 果 没 有 ， 
就 需要 按 某 种 替换 策略 先 从 Cache 中 把 某 个 块 替换 出 去 ,然后 将 新 调和 的 块 放 到 被 替换 的 
块 的 位 置 上 。 关 于 替换 策略 ,将 在 后 面 进一步 讨论 。 


来 自 CPU 主 存 地 址 


主 存 地 址 块 地 址 块 内 位 移 
J 
不 命中 主 存 一 Cache 
地 址 变换 
| 访问 主 存 
调和 一块 命中 ,| 
! Cache 地 址 | 块 地 址 ”| 块 内 位 移 
L 
! Cache 
Cache 存储 体 | | 
i. 1 ' 
和 了 


图 7.6 Cache 的 基本 工作 原理 示意 图 


7.2.2 映像 规则 


当 要 把 一 个 块 从 主 存 调和 人 Cache 时 ,可 以 放置 到 哪些 位 置 ? 这 就 是 映像 规则 所 要 解决 
的 。 映 像 规则 有 以 下 三 种 。 

1. 全 相 联 映像 

全 相 联 映像 (Fully Associative) 是 指 主 存 中 的 任 一 块 可 以 被 放置 到 Cache 中 的 任意 一 
个 位 置 , 如 图 7.7(a) 所 示 。 图 中 给 出 了 主 存 的 第 9 块 可 以 放 入 的 位 置 ( 带 阴 影 部 分 ) 。 

为 简单 起 见 , 图 中 只 画 出 了 Cache 大 小 为 8 块 . 主 存 大 小 为 16 块 的 情况 。 

2. 直接 映像 

直接 映像 (Direct Mapping) 是 指 主 存 中 的 每 一 个 块 只 能 被 放置 到 Cache 中 唯一 的 一 个 
位 置 , 如 图 7.7(b) 所 示 。 图 中 带 箭头 的 连 线 表 示 映 像 关 系 。 从 主 存 块 到 Cache 块 的 对 应 关 
系 是 依次 循环 分 配 的 。 

图 中 带 箭头 的 实 线 连 线 表 示 , 主 存 的 第 9 块 只 能 放 入 Cache 的 第 1 块 。 一 般 地 ,如 果 主 
存 的 第 i 块 ( 即 块 地 址 为 四 映像 到 的 Cache 块 的 第 j 块 . 则 

j=imodM 


其 中 M 为 Cache 的 块 数 。 
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(b) 直接 映像 
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(c) 组 相 联 映像 


图 7.7 


三 种 映像 规则 


设 M 三 2”, 则 当 表 示 为 二 进 制 数 时 ,i 实际 上 就 是 i 的 低 m 位 ,如 下 所 示 。 


主 存 块 地 址 i 


了 


m 位 


因此 ,可 以 直接 用 主 存 块 地 址 的 低 mm 位 去 选择 直接 映像 Cache 中 的 块 。 


3. 组 相 联 映像 


在 组 相 联 映像 (Set Associative) 中 ,Cache 被 等 分 为 若干 组 ,每 组 由 若干 个 块 构成 。 主 
存 中 的 每 一 块 可 以 被 放置 到 Cache 中 唯一 的 一 个 组 中 的 任何 一 个 位 置 。 它 是 直接 映像 和 全 
相 联 映 像 的 一 种 折 中 : 一 个 主 存 块 首先 是 直接 映像 到 唯一 的 一 个 组 上 (直接 映像 的 特征 ) 


计算 胡 系 统 结 药 教 程 ( 入 2 版 ) 


的 ,然后 这 个 块 可 以 被 放 入 这 个 组 中 的 任何 一 个 位 置 ( 全 相 联 映像 的 特征 )。 组 的 选择 常 采 
用 位 选择 算法 , 即 对 于 主 存 的 第 i 块 , 若 它 所 映像 到 Cache 组 的 组 号 为 k, 则 有 


k=imodG 
其 中 G 为 Cache 的 组 数 。 
设 G=25, 则 当 表 示 为 二 进 制 数 时 ,k 实际 上 就 是 i 的 低 g 位 ,如 下 所 示 。 
主 存 块 地 址 ?| | k 
8 位 


因此 ,可 以 直接 用 主 存 块 地 址 的 低 g 位 去 选择 Cache 中 的 相应 组 。 这 里 的 低 gs 位 以 及 
上 述 直 接 映 像 中 的 低 m 位 通常 称 为 索引 (index) 。 

如 果 每 组 中 及 n 个 块 (n= 二 M/G), 则 称 该 映像 规则 为 n 路 组 相 联 (n-way Set 
Associative)。 图 7. 7(c) 为 两 路 组 相 联 映像 的 示意 图 。 这 里 的 每 个 组 由 两 块 组 成 。 主 存 第 
9 块 可 以 被 放 和 人 Cache 第 一 组 的 两 个 块 中 的 任何 一 个 。 

相 联 度 越 高 ( 即 的 值 越 大 ),Cache 的 空间 利用 率 就 越 高 , 块 冲突 概率 就 越 低 ,因而 
Cache 的 不 命中 率 就 越 低 。 块 冲突 是 指 当 要 把 一 个 主 存 块 调和 Cache 时 , 按 映像 规则 所 对 
应 的 Cache 块 位 置 都 已 经 被 占用 。 显 然 , 全 相 联 映像 的 不 命中 率 最 低 ,直接 映像 的 不 命中 率 
最 高 。 虽 然 从 降低 不 命中 率 的 角度 来 看 ,n 的 值 越 大 越 好 ,但 在 后 面 我 们 将 看 到 , 增 大 ” 值 
并 不 一 定 能 使 整个 计算 机 系统 的 性 能 提高 ,而 且 还 会 使 Cache 的 实现 复杂 度 和 成 本 增加 。 
因此 , 绝 大 多 数 计算 机 都 采用 直接 映像 ,两 路 组 相 联 映像 或 4 路 组 相 联 映 像 。 特 别 是 直接 映 
像 , 应 用 得 最 多 。 


7.2.3 查找 方法 


当 CPU 访问 存储 器 中 的 某 个 单元 时 ,如 何在 Cache 中 找到 包含 该 地 址 的 块 (如 果 有 的 
话 )? 这 是 通过 查找 目录 表 来 实现 的 。Cache 中 设 有 一 个 目录 表 , 每 一 个 Cache 块 在 该 表 中 
都 有 唯一 的 一 项 ,用 于 指出 当前 该 块 中 存放 的 信息 是 哪个 主 存 块 的 (一 般 有 多 个 主 存 块 映像 
到 该 Cache 块 ) 。 它 实际 上 是 记录 了 该 主 存 块 的 块 地 址 的 高 位 部 分 , 称 为 标识 (tag)。 每 个 
主 存 块 能 唯一 地 由 其 标识 来 确定 。 标 识 在 主 存 
块 地 址 中 的 位 置 如 图 7. 8 所 示 。 

由 于 目录 表 中 存放 的 是 标识 ,所 以 存放 目 
录 表 的 存储 器 又 称 为 标识 存储 器 。 目 录 表 中 给 
每 一 项 设置 了 一 个 有 效 位 ,用 于 指出 Cache 中 的 块 是 否 包 含有 效 信息 。 例 如 ,用 该 位 为 “1” 
表示 Cache 中 相应 块 所 包含 的 信息 有 效 。 当 一 个 主 存 块 被 调 入 Cache 中 某 一 个 块 位 置 时 ， 
它 的 标识 就 被 十 人 目录 表 中 与 该 Cache 块 相 对 应 的 项 中 ,并 将 其 有 效 位 置 “1”。 

根据 映像 规则 的 不 同 ,一 个 主 存 块 可 能 映像 到 Cache 中 的 一 个 或 多 个 Cache 块 位 置 。 
为 便于 讨论 ,我 们 将 之 称 为 候选 位 置 。 当 CPU 访问 该 主 存 块 时 ,必须 且 只 需 查 找 它 的 候选 
位 置 的 目录 表 项 (标识 )。 如 果 有 标识 匹配 ( 即 相同 ) 的 项 , 且 其 有 效 位 为 "1”, 则 它 所 对 应 的 
Cache 块 即 是 所 要 找 的 块 。 为 了 保证 速度 ,对 各 候选 位 置 的 标识 的 检查 应 并 行进 行 。 

在 图 7.6 中 ,虽然 从 原理 上 讲 , 是 先进 行 “ 主 存 Cache” 地 址 变换 ,得 到 Cache 地 址 后 再 
去 访问 Cache 存储 体 , 而 且 对 于 全 相 联 的 情况 来 说 ,也 必须 如 此 。 但 实际 上 ,在 采用 直接 映 


主 存 地 址 | 标识 索引 ”| 块 内 位 移 


块 地 址 
图 7.8 主 存 地 址 的 分 割 
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像 或 组 相 联 映像 的 情况 下 ,为 了 提高 访问 速度 ,一 般 是 把 “ 主 存 一 Cache” 地 址 变换 和 访问 
Cache 存储 体 安排 成 同时 进行 。 这 时 ,由 于 还 不 知道 哪个 候选 位 置 上 有 所 要 访问 的 数据 ,所 
以 就 把 所 有 候选 位 置 中 的 相应 信息 都 读 出 来 ,在 “ 主 存 一 Cache” 地 址 变换 完成 后 (如 果 命中 
的 话 ) ,再 根据 其 结果 从 这 些 信息 中 选 一 个 ,发 送 给 CPU。 

直接 映像 Cache 的 候选 位 置 最 少 , 只 有 一 个 :全 相 联 Cache 的 候选 位 置 最 多 ,为 M 个 ; 
而 n 路 组 相 联 则 介 于 两 者 之 间 , 为 n 个 。 实 现 并 行 查找 的 方法 有 两 种 : 四 用 相 联 存储 器 实 
现 ; 加 用 单 体 多 字 的 按 地 址 访问 的 存储 器 和 比较 器 来 实现 。 

图 7.9 是 采用 第 种 方法 来 实现 组 相 联 的 示意 图 ,图 中 只 画 出 了 标识 存储 器 。 其 目录 由 
2s 个 相 联 存储 区 构成 ,每 个 相 联 存 储 区 的 大 小 为 nX (ha 十 log 思 位 , 需 用 相 联 存储 器 来 实现 。 根 
据 所 查找 到 的 组 内 块 地 址 ,就 可 以 从 Cache 存储 体 中 读 出 的 多 个 信息 字 中 选 一 个 ,发 送 给 CPU。 


位 g 位 
~ 
标识 。 | 索引 
-一 标识 存储 器 
从 2 组 中 
迁 择 一 组 [ 
1 个 项 {| 相 联 比较 | ?| 》 总 容量 : 2xn 项 


组 内 块 地 址 (log>n 位 ) 
图 7.9 用 相 联 存储 器 实现 并 行 查找 


图 7. 10 中 画 出 了 用 第 加 种 方法 来 实现 4 路 组 相 联 的 情况 。 同 图 7.9 一 样 ,也 只 画 了 目 
录 存 储 器 部 分 。 这 时 需要 4 个 比较 器 。CPU 访 存 时 ,用 本 次 访 存 地 址 中 的 索引 作为 地 址 从 
标识 存储 器 中 选取 一 行 (对 应 于 一 组 ) ,并 从 该 行 并 行 读 出 4 个 标识 (分 别 对 应 于 4 路 )。 与 
此 同时 ,也 从 Cache 存储 体 中 并 行 读 出 4 个 信息 字 。 然 后 将 所 读 出 的 4 个 标识 与 本 次 访 存 
地 址 中 的 标识 进行 并 行 比 较 , 以 确定 是 否 命中 以 及 该 组 中 哪 一 个 块 是 要 访问 的 块 ( 若 命中 ) 。 
根据 这 些 信 息 ,就 可 以 从 已 经 读 出 的 4 个 信息 字 中 选择 一 个 , 送 给 CPU。 这 种 方法 的 优点 
是 不 必 采 用 相 联 存储 器 ,而 是 用 按 地 址 访问 的 存储 器 来 实现 。 它 所 需要 的 硬件 为 : 大 小 为 
2 XnXh 位 的 存储 器 和 个 h 位 的 比较 器 。 当 相 联 度 增加 时 ,不 仅 比较 器 的 个 数 会 增 
加 ,而 且 比 较 器 的 位 数 也 会 增加 。 

可 以 看 出 ,n 越 大 ,实现 查找 的 机 制 就 越 复杂 ,代价 就 越 高 。 直 接 映 像 Cache 的 查找 最 
简单 : 只 需 查找 一 个 位 置 。 所 访问 的 块 要 么 就 在 这 个 位 置 上 ,要 么 就 不 在 Cache 中 。 

无 论 是 直接 映像 还 是 组 相 联 ,查找 时 只 需 比较 标识 .索引 无 需 参 加 比较 。 这 是 因为 索引 
已 被 用 来 选择 要 查找 的 组 (或 块 ), 而 所 有 索引 相同 且 只 有 索引 相同 的 块 才 被 映像 到 该 组 
( 块 ) 中 ,所 以 该 组 中 各 块 的 索引 一 定 与 本 次 访 存 的 索引 相同 。 如 果 Cache 的 容量 不 变 ,提高 
相 联 度 就 会 增加 每 一 组 中 的 块 数 ,从 而 会 减少 索引 的 位 数 且 增加 标识 的 位 数 。 在 全 相 联 的 
情况 下 ,索引 的 位 数 为 0, 块 地 址 就 是 标识 。 
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图 7.10 4 路 组 相 联 并 行 标识 比较 
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7.2.4 Cache 的 工作 过 程 


下 面 以 DEC 的 Alpha AXP 21064 微 处 理 器 中 的 数据 Cache 为 例 ,来 介绍 Cache 的 工 
作 过 程 。 图 7. 11 为 其 结构 框图 。 这 是 一 个 容量 为 8KB 的 直接 映像 Cache, 块 大 小 为 32 字 
节 , 共 有 256 个 块 。 采 用 写 直达 法 , 写 缓冲 器 的 大 小 为 4 个 块 。 


块 地 址 So Alpha AXP 21064 
21 8 3 
标识 索引 | 上 |- © 
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有 效 位 。 ”标识 数据 
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下 一 级 存储 器 


图 7.11 Alpha AXP 21064 微 处 理 器 中 数据 Cache 的 结构 


下 面 参照 图 7. 11 来 介绍 访问 Cache 的 工作 过 程 (图 中 带 圈 的 数字 表示 步骤 的 顺序 ) 。 
Alpha AXP 21064 微 处 理 器 传送 给 Cache 的 物理 地 址 为 34 位 (图 中 的 中 )。 这 个 地 址 
被 分 为 两 部 分 : 块 地 址 (29 位 ) 和 块 内 位 移 (5 位 )。 块 地 址 又 进一步 被 分 为 标识 和 索引 。 
Cache 的 容量 与 索引 (index)、 相 联 度 . 块 大 小 之 间 的 关系 为 
Cache 的 容量 = 2 x 相 联 度 xX 块 大 小 
把 容量 为 8192B、 相 联 度 为 1、 块 大 小 为 32 字 节 代入 ,可 得 


存储 系统 


Dindex Cache 容量 8192 
块 大 小 x 相 联 度 ”32X1 


因此 ,索引 (index) 为 8 位 ,标识 为 29 一 8 一 21( 位 ) 。 

第 @ 步 是 用 索引 作为 地 址 从 256 个 目录 项 中 选择 一 项 , 读 出 相应 的 标识 和 有 效 位 。 同 
时 用 索引 作为 地 址 从 Cache 的 数据 体 中 选择 一 块 .用 块 内 位 移 的 高 两 位 作为 偏 移 量 读 出 相 
应 的 数据 字 ( 每 个 块 为 4 个 字 , 每 个 字 为 8 个 字 节 )。 在 直接 映像 Cache 中 , 读 出 数据 并 送 往 
CPU 与 读 出 标识 并 进行 匹配 这 两 个 过 程 可 以 并 行进 行 。 

第 @ 步 是 把 上 一 步 读 出 的 标识 与 CPU 送 来 的 物理 地 址 中 的 标识 进行 比较 。 为 了 保证 
标识 信息 有 效 ,其 相应 的 有 效 位 必须 为 “1”, 否 则 比较 的 结果 就 是 无 效 的 。 

如 果 标 识 比 较 的 结果 是 匹配 , 且 有 效 位 为 *1”, 就 表示 本 次 访问 Cache 命中 ,那么 最 后 一 
步 ( 即 第 @@ 步 ) 就 是 发 信号 通知 CPU 取 走 数据 。Alpha AXP 21064 完成 这 4 步 需要 两 个 时 
钟 周期 。 

和 任何 Cache 一 样 ,在 Alpha AXP 21064 中 对 “ 写 ” 的 处 理 比 对 “ 读 ” 的 处 理 更 复杂 。 在 
写 命中 的 情况 下 ,前 三 步 跟 上 面 是 一 样 的。 最 后 ,在 确认 标识 比较 为 匹配 之 后 , 才 把 数据 
号 大 。 

不 管 是 否 命中 ,Alpha AXP 21064 都 要 把 数据 写 入 主 存 ( 即 采用 的 是 写 直 达 法 )。 为 了 
提高 “ 写 " 访 问 的 速度 ,Alpha AXP 21064 设置 了 一 个 写 缓冲 器 。 这 个 写 缓冲 器 是 按 字 寻 址 
的 , 它 含 有 4 个 块 ,每 块 大 小 为 4 个 字 。 当 要 进行 写 人 操作 时 ,如 果 写 缓冲 器 不 满 ,就 把 数据 
和 完整 的 地 址 写 和 人 缓冲 器 。 对 CPU 而 言 .本 次 * 写 ”访问 已 完成 ,CPU 可 以 继续 往 下 执行 。 
由 写 缓冲 器 负责 把 该 数据 写 入 主 存 。 

在 写 人 缓冲 器 时 ,要 进行 写 合并 检查 。 即 检查 本 次 写 人 数据 的 地 址 是 否 与 缓冲 器 内 某 
个 有 效 块 的 地 址 匹配 。 如 果 匹 配 , 就 把 新 数据 与 该 块 合并 。 

当 发 生 读 不 命中 时 ,Cache 就 向 CPU 发 出 一 个 暂停 信和 号 ,通知 它 等 待 ,并 从 下 一 级 存 
储 器 中 新 调和 一 个 数据 块 (32 字 节 )。Alpha AXP 21064 的 Cache 和 它 的 下 一 级 存储 器 之 
间 的 数据 通路 宽度 为 16 字 节 。 每 次 数据 传送 需 5 个 时 钟 周期 ,传送 全 部 32 字 节 数据 
需要 10 个 时 钟 周 期 。 由 于 Alpha AXP 21064 的 数据 Cache 是 直接 映像 的 ,所 以 当 发 生 调 
块 时 ,必然 引起 替换 。 因 为 该 Cache 采用 写 直达 法 .所 以 ,替换 时 不 必 把 被 替换 块 写 回 
主 存 。 

当 发 生 写 不 命中 时 ,Alpha AXP 21064 将 使 数据 * 绕 过 ”Cache, 直 接 写 入 主 存 。 

作为 对 比 , 考 虑 Alpha AXP 21264 微 处 理 器 中 的 数据 Cache, 图 7. 12 为 其 结构 框图 。 
这 个 Cache 与 上 述 Alpha AXP 21064 的 数据 Cache 的 主要 区 别 是 : @ 采 用 了 两 路 组 相 联 ; 
@ 采 用 了 写 回 法 。 当 CPU 对 该 Cache 进行 读 访 问 时 ,同时 进行 两 路 标识 和 数据 的 读 出 ,并 
根据 比较 的 结果 从 分 别 来 自 两 路 的 数据 中 选择 一 个 , 送 给 CPU。 而 当 进 行 写 访问 时 ,只 写 
入 Cache, 不 写 人 主 存 , 所 以 它 没有 写 缓冲 器 。 这 个 Cache 的 容量 为 64KB, 块 大 小 为 64 字 
节 , 采 用 LRU 替换 策略 。 这 个 Cache 的 工作 过 程 与 上 述 Alpha AXP 21064 的 数据 Cache 
的 工作 过 程 类 似 。 
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图 7.12 一 个 两 路 组 相 联 Cache 


7.2.5 替换 算法 


1. 替换 算法 概述 

当 要 从 主 存 调 人 一 个 块 到 Cache 中 时 ,经 常会 出 现 该 块 所 映像 到 的 Cache 块 位 置 (一 个 
或 一 组 ) 已 全 被 占用 的 情况 。 这 时 , 需 选 择 其 中 的 某 一 块 ,用 新 调 人 的 块 取而代之 (因为 新 块 
更 重要 ) 。 那 么 应 如 何 选择 这 个 被 蔡 换 的 块 呢 ? 这 就 是 替换 算法 所 要 解决 的 问题 。 

直接 映像 Cache 中 的 替换 很 简单 ,因为 只 有 一 个 块 , 别 无 选择 。 而 在 组 相 联 和 全 相 联 
Cache 中 , 则 有 多 个 块 供 选择 ,我 们 当然 希望 尽 可 能 避免 替换 掉 马 上 就 要 用 到 的 信息 。 主 要 
的 替换 算法 有 以 下 三 种 。 

1) 随机 法 

这 种 方法 随机 地 选择 被 替换 的 块 。 其 优点 是 简单 .易于 用 硬件 实现 ,但 这 种 方法 没有 考 
虚 Cache 块 过 去 被 使 用 的 情况 ,反映 不 了 程序 的 局 部 性 ,所 以 命中 率 比 较 低 。 

2) 先进 先 出 法 

这 种 方法 选择 最 早 调和 人 的 块 作为 被 替换 的 块 。 其 优点 也 是 容易 实现 。 它 虽然 利用 了 同 
一 组 中 各 块 进入 Cache 的 先后 顺序 这 一 “历史 ”信息 ,但 还 是 不 能 正确 地 反映 程序 的 局 部 性 。 
因为 最 先进 入 的 块 ,也 可 能 是 经 常 要 用 到 的 块 。 

3) 最 近 最 少 使 用 法 

这 种 方法 本 来 是 选择 近期 使 用 次 数 最 少 的 块 作为 被 蔡 换 的 块 。 但 由 于 其 实现 比较 复 
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杂 , 现 在 实际 中 实现 的 LRU 都 只 是 选择 最 久 没有 被 访问 过 的 块 。 这 种 方法 所 依据 的 是 局 
部 性 原理 的 一 个 推论 : 最 近 刚 用 过 的 块 很 可 能 就 是 马上 要 再 用 到 的 块 ,因此 最 久 没 有 用 过 
的 块 就 是 最 佳 的 被 替换 者 。 

LRU 能 较 好 地 反映 程序 的 局 部 性 原理 ,因而 其 命中 率 在 上 述 三 种 方法 中 也 是 最 高 的 。 
但 是 LRU 比较 复杂 ,硬件 实现 成 本 比较 高 ,特别 是 当 组 的 大 小 增加 时 ,LRU 的 实现 代价 会 
越 来 越 高 。 

LRU 和 随机 法 分 别 因 其 不 命中 率 低 和 实现 简单 而 被 广泛 采用 。 不 过 ,有 模拟 数据 表 
明 ,对 于 容量 很 大 的 Cache,LRU 和 随机 法 的 命中 率 差别 不 大 。 

2. LRU 算法 的 硬件 实现 

1) 堆栈 法 

这 种 方法 是 用 一 个 堆栈 来 记录 组 相 联 Cache 的 同一 组 中 各 块 被 访问 的 先后 次 序 。 这 个 
先后 次 序 是 用 堆栈 元 素 的 物理 位 置 来 反映 的 ,从 栈 底 到 栈 顶 的 先后 次 序 依次 记录 了 该 组 中 各 
块 被 访问 的 先后 次 序 (存放 的 是 组 内 块 地 址 )。 栈 底 记 录 的 是 该 组 中 最 早 被 访问 过 的 块 ,次 栈 
底 记录 的 是 该 组 中 第 二 个 被 访问 过 的 块 ，……… , 栈 顶 记录 的 是 刚 访问 过 的 块 ,如 图 7. 13(a) 所 
示 。 这 样 , 当 需要 替换 时 ,就 可 以 从 栈 底 得 到 应 该 被 蔡 换 的 块 ( 块 地 址 ) 。 


近期 出 访问 寄存 器 堆栈 压 入 
-过 的 块 地 址 .| (组 内 块 地 址 ) (人 组 内 续 地 址 ) 
(组 内 块 地 址 ) (组 内 块 地 址 ) 全 部 顺序 
下 推 一 行 
个 寄存 器 - 
(组 内 块 地 址 ) (组 内 块 地 址 ) | 一 一 被 访 间 的 块 地 址 
一 一 一 一 一 一 (经 相 联 比较 找到 ) 
近期 最 久未 : : 
访问 的 块 地址 上 一 一 一 一 一 一 | 
一 一 一 一 | (组 内 块 地 址 ) (组 内 块 地 址 ) 
logan 位 
(a) 用 位 置 记录 访问 的 先后 次 序 (b) 发 生 访问 时 所 进行 的 操作 
图 7.13 堆栈 法 


显然 , 随 着 Cache 访问 的 发 生 . 该 堆栈 中 的 内 容 必 须 动态 更 新 .以便 保 持 该 堆栈 的 上 述 
属性 。 当 Cache 访问 命中 时 ,通过 用 块 地 址 进行 相 联 查找 ,在 堆栈 中 找到 相应 的 元 素 ,然后 
把 该 元 素 上 面 的 所 有 元 素 下 压 一 个 位 置 ,同时 把 本 次 访问 的 块 地 址 抽出 来 .从 最 上 面 压 入 栈 
顶 。 而 该 元 素 下 面 的 所 有 元 素 则 保持 不 动 ,如 图 7.13(b) 所 示 。 

如 果 Cache 访问 不 命中 , 则 把 本 次 访问 的 块 地 址 从 最 上 面 压 入 栈 顶 ,堆栈 中 所 有 原来 的 
元 素 都 下 移 一 个 位 置 。 如 果 Cache 中 该 组 已 经 没有 空闲 块 ,就 要 替换 一 个 块 。 这 时 从 栈 底 
被 挤 出 去 的 块 地 址 就 是 需要 被 替换 的 块 的 块 地 址 。 

下 面 来 看 看 堆栈 法 所 需要 的 硬件 。 需 要 为 每 一 组 都 设置 一 个 项 数 与 相 联 度 相同 的 小 堆 
栈 ,每 一 项 的 位 数 为 logzm 位 。 这 种 硬件 堆栈 不 仅 要 有 相 联 比较 的 功能 ,而 且 还 要 具备 能 全 部 
下 移 ,部 分 下 移 和 从 中 间 取 出 一 项 的 功能 ,成 本 较 高 .因此 只 适用 于 相 联 度 较 小 的 LRU 算法 。 

2) 比较 对 法 

堆栈 法 需要 硬件 有 相 联 比较 的 功能 ,因此 其 速度 较 低 , 成 本 也 比较 高 。 那 么 ,能 否 不 用 
相 联 比较 ,只 用 一 般 的 门 、 触 发 器 来 实现 LRU 替换 算法 呢 ? 比较 对 法 就 是 其 中 的 一 种 。 
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比较 对 法 的 基本 思路 是 让 各 块 两 两 组 合 ,构成 比较 对 。 每 一 个 比较 对 用 一 个 触发 器 的 
状态 来 表示 它 所 相关 的 两 个 块 最 近 一 次 被 访问 的 远近 次 序 , 再 经 过 门 电路 就 可 找到 LRU 
块 。 例 如 ,假设 有 A、B、C 三 个 块 ,可 以 组 成 三 对 : AB、AC、BC。 每 一 对 块 的 访问 次 序 分 别 
用 "对 触发 器 "Tas、Tac、Tac 表 示 。Tas 为 "1”, 表 示 A 比 已 更 近 被 访问 过 ; Tas 为 “0”, 表 示 
B 比 A 更 近 被 访问 过 。Tac 、Tsc 也 按 这 样 的 规则 定义 。 

显然 , 当 Tac 二 1 且 Tac 二 1 时 , 即 A 比 C 更 近 被 访问 过 且 B 也 比 C 更 近 被 访问 过 时 ,C 
就 是 最 久 没 有 被 访问 过 的 。 即 

Crru = Tac * Tac 

同 理 可 得 

Brru = Tas * Tac 
Atrru 一 Tas。 Tac 
用 触发 器 和 与 门 实现 上 述 逻 辑 的 电路 如 图 7. 14 所 示 。 


Alru Biru CuRu 
包 名 包 
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0 1 | 0 区 J 1 
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一 一 访问 C 
访问 4 


图 7.14 用 比较 对 法 实现 LRU 算法 


显然 ,每 次 访问 某 块 时 ,应 改变 与 该 块 有 关 的 比较 对 触发 器 的 状态 。 在 上 述 例子 中 ,每 
次 访问 A 后 需 改 变 与 A 有 关 的 比较 对 触发 器 的 状态 ,具体 操作 是 置 Tas 和 TaAc 为 "1”, 以 反 
映 A 比 B 更 近 、A 比 C 更 近 被 访问 过 ,也 即 A 是 最 近 被 访问 过 的 ; 同 理 ,访问 B 后 , 管 Tas 
为 "0” 置 Tac 为 “1”; 访 问 C 后 , 置 Tac、Tsc 为 “0”。 据 此 可 以 确定 出 各 比较 对 触发 器 的 输入 
控制 逻辑 ,如 图 7. 14 所 示 。 

下 面 来 分 析 比 较 对 法 所 需 的 硬件 量 。 由 于 每 个 块 都 可 能 成 为 LRU 块 ,其 信号 需 用 与 门 产 
生 , 所 以 有 多 少 个 块 ,就 要 有 多 少 个 与 门 ;每 个 与 门 的 输入 端 要 连接 所 有 与 之 相关 的 触发 器 。 对 
于 一 个 具有 P 卫 块 的 组 中 的 任何 一 个 块 来 说 ,由 于 它 可 以 跟 除了 它 自 己 以 外 所 有 其 他 的 块 两 两 组 
合 , 所 以 与 该 块 相关 的 比较 对 触发 器 个 数 为 P 一 1, 因 而 其 相应 的 与 门 的 输入 端 数 是 P 一 1。 

所 需要 的 触发 器 的 个 数 与 两 两 组 合 的 比较 对 的 数目 相同 。 这 是 一 个 己 中 取 2 的 组 合 
问题 : CG 二 PX(P 一 1)。 表 7.2 列 出 了 比较 对 法 中 所 需要 的 与 门 个 数 、 与 门 的 输入 端 数 以 
及 触发 器 的 个 数 与 块 数 P 的 关系 。 


表 7.2 比较 对 触发 器 个 数 .与 门 的 个 数 .与 门 的 输入 端 数 与 块 数 了 的 关系 


组 内 块 数 3 4 8 16 64 256 P 
触发 器 个 数 3 6 28 120 2016 | 32640 全 人 
与 门 个 数 $ 4 8 16 64 256 2 P 
与 门 输入 端 个 数 2 § 了 15 63 255 ee P= 
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从 表 7. 2 可 以 看 出 ,在 块 数 少 时 , 它 所 需要 的 硬件 较 少 , 比 前 面 的 堆栈 法 更 容易 实现 。 
但 随 着 组 内 块 数 P 的 增加 , 它 所 需 的 触发 器 的 个 数 会 以 平方 的 关系 迅速 增加 , 门 的 输入 端 
数 也 线性 增加 。 当 P 超过 8 时 ,所 需要 的 触发 器 个 数 就 多 得 不 能 承受 了 。 硬件 实现 的 成 本 
很 高 。 

当 组 内 块 数 较 多 时 ,可 以 用 多 级 状态 位 技术 来 减少 所 需 的 硬件 量 。 例 如 ,在 IBM3033 
中 ,组 内 块 数 为 16, 可 分 成 群 、 对 , 行 三 级 。 先 分 成 4 群 ,每 群 两 对 ,每 对 两 行 。 这 样 , 选 LRU 
群 需 6 个 触发 器 :每 群 中 选 LRU 对 需要 一 个 触 法 器 ,4 个 群 共 需要 4 个 触发 器 ;每 行 中 选 
LRU 块 需要 一 个 触发 器 ,8 个 行 共 需要 8 个 触发 器 。 这 样 ,所 需 的 触发 器 总 个 数 为 

6( 选 群 ) 十 4( 选 对 ) 十 8( 选 行 ) 二 18( 个 ) 

而 单 级 则 需要 120 个 触发 器 。 但 这 是 以 牺牲 速度 为 代价 的 。 一 般 来 说 ,所 分 的 级 数 越 多 ,能 
节省 的 器 件 就 越 多 ,但 多 级 电路 所 造成 的 延迟 时 间 也 就 越 长 。 


7.2.6 写 策 略 


处 理 器 对 Cache 的 访问 主要 是 读 访 问 , 因 为 所 有 对 指令 的 访问 都 是 “ 读 ”, 而 且 大 多 数 指 
令 都 不 对 存储 器 进行 “ 写 "。 有 个 统计 结果 表明 ,store 和 load 指令 所 占 的 比例 分 别 为 9% 和 
26%, 由 此 可 得 出 “ 写 " 在 所 有 访 存 操作 中 所 占 的 比例 为 

9%/(100% 十 26% 十 9%) 之 7% 

而 在 访问 数据 Cache 操作 中 所 占 的 比例 为 

9%/(26% 十 9%) S25% 

由 于 “ 读 ” 所 占 的 百分比 要 高 得 多 ,特别 是 考虑 到 处 理 器 一 般 是 对 “ 读 ” 要 等 待 ,而 对 “ 写 ” 
却 不 必 等 待 ,所 以 设计 Cache 要 针对 “ 读 ” 进 行 优化 。 然 而 ,Amdahl 定律 告诉 我 们 ,高 性 能 
Cache 的 设计 不 能 忽略 “ 写 ? 的 速度 。 

“ 写 " 一 般 比 * 读 ?花费 更 多 的 时 间 , 这 是 因为 只 有 在 读 出 标识 并 进行 比较 、 确 认 是 命中 
后 , 才 可 对 Cache 进行 写 人 。 所 以 检查 标识 不 能 与 写 人 Cache 并 行进 行 。 另 一 个 比较 麻烦 
的 地 方 , 是 处 理 器 要 写 人 的 数据 的 宽度 不 是 定 长 的 (通常 为 1 一 8 字 节 )。 写 人 时 ,只 能 修改 
Cache 块 中 相应 的 部 分 。 而 “ 读 ” 则 可 以 多 读 出 几 个 字 节 也 没关系 。 

按照 存储 层次 的 要 求 ,Cache 内 容 应 是 主 存 部 分 内 容 的 一 个 副本 。 但 是 “ 写 " 访 问 却 可 
能 导致 它们 的 内 容 不 一 致 。 例 如 , 当 处 理 机 进行 “ 写 ? 访 问 , 往 Cache 写 入 新 的 数据 后 , 则 
Cache 中 相应 单元 的 内 容 已 发 生变 化 ,而 主 存 中 该 单元 的 内 容 却 仍然 是 原来 的 。 这 就 产生 
了 Cache 与 主 存 内 容 的 一 致 性 问题 。 显 然 ,为 了 保证 正确 性 , 主 存 的 内 容 也 必须 更 新 。 至 于 
何 时 更 新 ,这 正 是 写 策略 所 要 解决 的 问题 。 

写 策略 是 区 分 不 同 Cache 设计 方案 的 一 个 重要 标志 。 写 策略 主要 有 两 种 : 

(1) 写 直 达 法 (Write Through) 

写 直达 法 也 称 为 存 直达 法 (Store Through) 。 它 是 指 在 执行 “ 写 ? 操 作 时 ,不 仅 把 数据 写 
入 Cache 中 相应 的 块 ,而 且 也 写 和 人 下 一 级 存储 器 。 这 样 下 一 级 存储 器 中 的 数据 就 都 是 最 
新 的 。 

(2) 写 回 法 (Write Back) 

写 回 法 也 称 为 拷 回 法 (Copy Back)。 这 种 写 策略 只 把 数据 写 入 Cache 中 相应 的 块 ,不 写 
入 下 一 级 存储 器 。 这 样 有 些 数 据 的 最 新 版 本 就 是 在 Cache 中 的 。 这 些 最 新 数据 只 有 在 相应 
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的 块 被 替换 时 , 才 被 写 回 下 一 级 存储 器 。 

为 了 减少 在 蔡 换 时 数据 块 的 写 回 ,常设 置 “修改 位 ?标志 , 即 为 Cache 中 的 每 一 块 设置 一 
个 “修改 位 ,用 于 指出 该 块 是 否 被 修改 过 。 当 一 个 块 被 替换 时 , 若 没有 被 修改 过 , 则 不 必 写 
回 下 一 级 存储 器 。 

写 回 法 和 写 直 达 法 各 有 特色 。 写 回 法 的 优点 是 速度 快 ,“ 写 ”操作 能 以 Cache 的 速度 进 
行 。 而且 所 有 “ 写 ” 只 到 达 Cache。 对 于 同一 单元 的 多 次 写 来 说 ,最 后 只 需 一 次 写 回 下 一 级 
存储 器 ,因而 减少 了 对 存储 器 带宽 的 要 求 。 这 使 得 写 回 法 对 于 多 处 理 机 很 有 吸引 力 。 写 直 
达 法 的 优点 是 易于 实现 ,而 且 下 一 级 存储 器 中 的 数据 总 是 最 新 的 。 后 一 个 优点 对 于 IO 和 
多 处 理 机 来 说 是 重要 的 。 

采用 写 直 达 法 时 ,车 在 进行 “ 写 ” 操 作 的 过 程 中 CPU 必须 等 待 , 直到“ 写 ” 操 作 结 束 , 则 
称 之 为 CPU 写 停 顿 (Write Stall)。 减少 写 停 顿 的 常用 方法 是 采用 写 缓冲 器 (Write 
Buffer)。CPU 一 旦 把 数据 写 人 该 缓冲 器 ,就 可 以 继续 执行 ,从 而 使 下 一 级 存储 器 的 更 新 和 
CPU 的 执行 重生 起 来 。 

由 于 “ 写 ” 访 问 并 不 需要 用 到 所 访问 单元 中 原 有 的 数据 。 所 以 , 当 发 生 写 不 命中 时 ,是 否 
调 入 相应 的 块 ,有 两 种 选择 : 

(1) 按 写 分 配 法 (Write Allocate): 写 不 命中 时 , 先 把 所 写 单元 所 在 的 块 从 主 存 调 人 
Cache, 然 后 再 进行 写 人 。 这 种 方法 也 称 为 写 时 取 (Fetch on Write) 方 法 。 

(2) 不 按 写 分 配 法 (No-write Allocate) : 写 不 命中 时 ,直接 写 和 人 下 一 级 存储 器 而 不 将 相 
应 的 块 调和 人 Cache。 这 种 方法 也 称 为 绕 写法 (Write Around) 。 

虽然 上 述 两 种 方法 都 可 应 用 于 写 直 达 法 和 写 回 法 ,但 写 回 法 的 Cache 一 般 采 用 按 写 分 
配 法 ,而 写 直 达 法 一 般 采 用 不 按 写 分 配 法 。 


7.2.7 Cache 性 能 分 析 


虽然 用 不 命中 率 来 评价 存储 系统 的 性 能 非常 方便 ,但 也 容易 产生 一 些 误导 。 平 均 访 存 

时 间 是 一 种 更 好 的 评测 存储 系统 性 能 的 指标 。 
平均 访 存 时 间 = 命中 时 间 十 不 命中 率 x 不 命中 开销 

平均 访 存 时 间 的 两 个 组 成 部 分 既 可 以 用 绝对 时 间 ( 如 命中 时 间 为 2ns) ,也 可 以 用 时 钟 
周期 数 ( 如 不 命中 开销 为 50 个 时 钟 周期 ) 来 衡量 。 

平均 访 存 时 间 仍 然 是 衡量 性 能 的 一 个 间接 指标 .尽管 它 是 一 个 比 不 命中 率 更 好 的 指标 ， 
但 并 不 能 代替 程序 执行 时 间 。 执 行 一 个 程序 所 需 的 CPU 时 间 能 更 好 地 反映 存储 系统 的 
性 能 。 


CPU 时 间 = (CPU 执行 周期 数 十 存储 器 停顿 周期 数 ) x 时 钟 周期 时 间 7.1) 
为 了 简化 对 各 种 Cache 设计 方案 的 评价 ,有 时 设计 者 们 假设 所 有 的 访 存 停顿 都 是 由 
Cache 不 命中 引起 的 ,这 是 因为 和 其 他 原因 引起 的 停顿 (如 1/O 设备 使 用 存储 器 引起 的 竞 
争 ) 相 比 ,不 命中 引起 的 停顿 占 了 绝 大 多 数 。 这 里 我 们 也 作 这 种 假设 。 但 需要 说 明 的 是 ,在 
计算 最 终 的 性 能 时 ,要 把 所 有 存储 器 停顿 都 考虑 进去 。 
上 面 的 CPU 时 间 公 式 提出 了 一 个 问题 . 即 Cache 命中 所 用 的 时 钟 周期 数 应 被 看 作 
CPU 执行 的 时 钟 周期 数 的 一 部 分 .还 是 存储 器 停顿 时 钟 周期 数 的 一 部 分 。 尽 管 两 种 考虑 都 
是 合理 的 ,但 广泛 使 用 的 还 是 前 一 种 。 
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可 以 用 程序 的 访 存 总 次 数 、 不 命中 开销 (单位 为 时 钟 周 期 ) 以 及 “ 读 ”" 和 “ 写 ” 的 不 命中 率 
来 计算 存储 器 停顿 的 时 钟 周期 数 , 即 
存储 器 停顿 时 钟 周期 数 =“ 读 ”的 次 数 X 读 不 命中 率 x 读 不 命中 开销 
十 “ 写 ” 的 次 数 x 写 不 命中 率 x 写 不 命中 开销 
一 般 通过 将 “ 读 ” 的 次 数 和 “ 写 ” 的 次 数 合 并 ,并 求 出 “ 读 ” 和 “ 写 ” 的 平均 不 命中 率 和 平均 
不 命中 开销 ,将 上 式 简化 为 
存储 器 停顿 时 钟 周期 数 = 访 存 次 数 X 不 命中 率 x 不 命中 开销 A 
由 于 “ 读 ” 和 “ 写 ” 的 不 命中 率 和 不 命中 开销 通常 是 不 相等 的 ,所 以 这 只 是 一 个 近似 公式 。 
把 式 (7.2) 代 入 式 (7.1) ,得 
CPU 时 间 = (CPU 执行 周期 数 十 访 存 次 数 x 不 命中 率 x 不 命中 开销 ) x 时 钟 周期 时 间 
提取 公 因 子 “指令 数 ”(IC) ,得 
CPU 时间 = ICxX (Cpl 一 区 到 放 x 不 命中 率 x 不 命中 开销 ] 


X 时 钟 周期 时 间 
二 IC X (CPlcxeeviion 十 每 条 指令 的 平均 访 存 次 数 
x 不 命中 率 x 不 命中 开销 ) x 时 钟 周期 时 间 《7 

例 7.1 用 一 个 和 Alpha AXP 类 似 的 机 器 作为 第 一 个 例子 。 假 设 Cache 不 命中 开销 
为 50 个 时 钟 周期 , 当 不 考虑 存储 器 停顿 时 ,所 有 指令 的 执行 时 间 都 是 2. 0 个 时 钟 周期 ,访问 
Cache 的 不 命中 率 为 2% ,平均 每 条 指令 访 存 1. 33 次 。 试 分 析 Cache 对 性 能 的 影响 。 

解 ”可 以 直接 用 式 (7.3) 来 计算 。 

CPU 时 间 丰 csene 二 IC X (CPlcweewsion 十 每 条 指令 的 平均 访 存 次 数 
X 不 命中 率 X 不 命中 开销 ) x 时 钟 周期 时 间 
二 IC X (2.0 十 1.33 X2% XxX 50) X 时 钟 周期 时 间 
二 IC X 3. 33 X 时 钟 周期 时 间 

因此 , 当 考 虑 了 Cache 的 不 命中 影响 后 ,CPI 就 会 增 大 ,本 例 中 CPI 从 理想 情况 的 2.0 
增加 到 3. 33 ,是 原来 的 1. 67 倍 。 由 于 不 管 有 没有 Cache, 时 钟 周期 时 间 和 指令 数 都 保持 不 
变 , 所 以 CPU 的 时 间 也 将 增加 到 原来 的 1. 67 倍 。 然 而 , 若 不 采用 Cache. CPI 将 增加 为 
2.0 十 50X1.33 王 68.5, 即 超过 原来 的 30 倍 ! 

从 这 个 例子 可 以 看 出 ,Cache 的 行为 可 能 会 对 系统 性 能 产生 巨大 的 影响 。 而 且 ,Cache 
不 命中 对 于 一 个 CPI 较 小 而 时 钟 频率 较 高 的 CPU 来 说 ,影响 是 双重 的 : 

(1) CPIeuom 越 低 , 固 定 周期 数 的 Cache 不 命中 开销 的 相对 影响 就 越 大 。 

(2) 在 计算 CPI 时 ,不 命中 开销 的 单位 是 时 钟 周期 数 。 因 此 ,即使 两 台 计 算 机 的 存储 层 
次 完全 相同 ,时 钟 频率 较 高 的 CPU 的 不 命中 开销 较 大 .其 CPI 中 存储 器 停顿 这 部 分 也 
较 大 。 

因此 ,Cache 对 于 低 CPI\ 高 时 钟 频 率 的 CPU 来 说 更 加 重要 ,而 且 . 在 评价 这 类 机 器 的 
性 能 时 ,如 果 忽 略 Cache 的 行为 ,就 更 容易 出 错 。 

尽 可 能 地 减少 平均 访 存 时 间 是 一 个 合理 的 目标 ,而 且 在 本 章 许多 地 方 也 是 使 用 平均 访 
存 时 间 这 个 指标 的 ,但 是 请 记 住 ,最 终 目标 是 减少 CPU 的 执行 时 间 。 下 面 的 例子 就 说 明了 
两 者 的 区 别 。 


~ 
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例 7.2 考虑 两 种 不 同 组 织 结构 的 Cache: 直接 映像 Cache( 类 似 于 图 7. 11) 和 两 路 组 
相 联 Cache( 类 似 于 图 7. 12) ,假设 : 
(1) 理想 Cache( 命 中 率 为 100%) 情 况 下 的 CPI 为 2.0, 时 钟 周期 为 2ns, 平 均 每 条 指令 
访 存 1.3 次 。 
(2) 两 种 Cache 容量 均 为 64KB, 块 大 小 都 是 32 字 节 。 
(3) 在 组 相 联 Cache 中 ,由 于 多 路 选择 器 的 存在 而 使 CPU 的 时 钟 周期 增加 到 原来 的 1. 10 
倍 。 这 是 因为 对 Cache 的 访问 总 是 处 于 关键 路 径 上 ,对 CPU 的 时 钟 周期 有 直接 的 影响 。 
(4) 这 两 种 结构 Cache 的 不 命中 开销 都 是 70ns。( 在 实际 应 用 中 ,应 取 整 为 整数 个 时 钟 
周期 。) 
(5) 命中 时 间 为 一 个 时 钟 周期 ,64KB 直接 映像 Cache 的 不 命中 率 为 1. 4% ,相同 容量 
的 两 路 组 相 联 Cache 的 不 命中 率 为 1.0%。 
试问 它们 对 CPU 的 性 能 有 什么 影响 ? 先 求 平均 访 存 时 间 , 然 后 再 计算 CPU 性 能 。 
解 ”平均 访 存 时 间 为 
平均 访 存 时 间 = 命中 时 间 十 不 命中 率 X 不 命中 开销 
因此 ,两 种 结构 的 平均 访 存 时 间 分 别 是 
平均 访 存 时 间 i% == 2.0 十 (0.014 X70) = 2.98(ns) 
平均 访 存 时 间 s% = 2.0X1.10 十 (0.010 X70) = 2.90(ns) 
两 路 组 相 联 Cache 的 平均 访 存 时 间 比 较 低 。 
CPU 性 能 为 
CPU 时 间 = IC X (CPIlweewion 十 每 条 指令 的 平均 访 存 次 数 X 不 命中 率 
X 不 命中 开销 ) x 时 钟 周期 时 间 
二 IC X (CPlIcxeewiion X 时 钟 周期 时 间 十 每 条 指令 的 平均 访 存 次 数 
X 不 命中 率 x 不 命中 开销 x 时 钟 周期 时 间 ) 
用 70ns 代替 “不 命中 开销 XX 时钟 周 期 时 间 ”, 并 用 CPIcxeewion 二 2, 时 钟 周 期 时 间 三 2, 每 
条 指令 的 平均 访 存 次 数 =1. 3 代入 ,得 两 种 结构 的 性 能 分 别 为 
CPU 时 间 i% = 二 ICX [2.0X2 二 (1.3X0.014X70)] = 5.27XIC 
CPU 时 间 s% = 二 ICX[2.0X2X1.10 十 (1.3X0.010X70)] = 5.31XIC 
相对 性 能 比 为 


CPU 时 间 s% _ 5.31 XIC _ 5.31 
CPU 时 间 is 5.27XIC 5.27 


和 平均 访 存 时 间 的 比较 结果 相反 ,直接 映像 Cache 的 平均 性 能 稍 好 一 些 , 这 是 因为 在 两 
路 组 相 联 的 情况 下 ,虽然 不 命中 次 数 减少 了 ,但 所 有 指令 的 时 钟 周期 时 间 都 增加 了 10%。 
由 于 CPU 时 间 是 我 们 进行 评价 的 基准 ,而 且 直 接 映像 Cache 的 实现 更 简单 ,所 以 本 例 中 直 
接 映像 Cache 是 较 好 的 选择 。 


7.2.8 改进 Cache 性 能 


CPU 和 主 存 之 间 在 速度 上 越 来 越 大 的 差距 已 经 引起 了 许多 系统 结构 设计 人 员 的 关注 。 
从 1989 年 到 1995 年 ,全 世界 共 发 表 了 1600 多 篇 有 关 Cache 的 研究 论文 。 根 据 平均 访 存 时 
间 公 式 
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平均 访 存 时 间 = 命中 时 间 十 不 命中 率 x 不 命中 开销 
可 知 , 可 以 从 以 下 三 个 方面 改进 Cache 的 性 能 : 
(1) 降低 不 命中 率 ; 
(2) 减少 不 命中 开销 ; 
(3) 减少 命中 时 间 。 
下 面 将 介绍 17 种 Cache 优化 技术 ,其 中 8 种 用 于 降低 不 命中 率 ,5 种 用 于 减少 不 命中 
开销 ,4 种 用 于 减少 命中 时 间 ,参见 表 7. 5。 


7.3 降低 Cache 的 不 命中 率 


提高 Cache 性 能 的 经 典 方法 是 降低 不 命中 率 。 本 节 介 绍 8 种 降低 不 命中 率 的 方法 。 需 
要 注意 的 是 ,许多 降低 不 命中 率 的 方法 会 增加 命中 时 间或 不 命中 开销 。 因 此 ,在 具体 使 用 
时 ,要 综合 考虑 ,保证 降低 不 命中 率 确实 能 使 整个 系统 的 速度 提高 。 


7.3.1 三 种 类 型 的 不 命中 


按照 产生 不 命中 的 原因 不 同 ,可 以 把 不 命中 分 为 以 下 三 类 (简称 为 3C) 。 

(1) 强制 性 不 命中 (Compulsory Miss)。 

当 第 一 次 访问 一 个 块 时 ,该 块 不 在 Cache 中 , 需 从 下 一 级 存储 器 中 调和 Cache, 这 就 是 
强制 性 不 命中 。 这 种 不 命中 也 称 为 冷 启动 不 命中 或 首次 访问 不 命中 。 

(2) 容量 不 命中 (Capacity Miss)。 

如 果 程 序 执行 时 所 需 的 块 不 能 全 部 调和 Cache 中 , 则 当 某 些 块 被 替换 后 , 若 又 重新 被 访 
问 , 就 会 发 生 不 命中 。 这 种 不 命中 称 为 容量 不 命中 。 

(3) 冲突 不 命中 (Conflict Miss)。 

在 组 相 联 或 直接 映像 Cache 中 , 若 太 多 的 块 映像 到 同一 组 ( 块 ) 中 , 则 会 出 现 该 组 中 某 个 
块 被 别 的 块 替换 ,然后 又 被 重新 访问 的 情况 。 这 就 是 发 生 了 冲突 不 命中 。 这 种 不 命中 也 称 
为 碰撞 不 命中 (Collision Miss) 或 干扰 不 命中 (Interference Miss) 。 

表 7.3 给 出 了 在 不 同 容量 和 不 同 相 联 度 的 情况 下 ,Cache 的 总 不 命中 率 以 及 上 述 三 种 
不 命中 所 占 的 比例 。 这 些 数据 是 在 DECstation 5000 上 针对 一 组 基准 测试 程序 测 得 的 。 
Cache 的 块 大 小 为 32 字 节 ,并 采用 LRU 算法 。 为 了 说 明 高 相 联 度 的 好 处 , 表 中 列 出 了 在 直 
接 映像 ,两 路 组 相 联 .4 路 组 相 联 和 8 路 组 相 联 的 情况 下 冲突 不 命中 的 值 。 


表 7.3 在 不 同 容量 不 同 相 联 度 的 情况 下 .Cache 的 总 不 命中 率 以 及 3C 所 占 的 比例 


总 不 命 不 命中 率 组 成 (相对 百分比 ) 
Cache 容量 | 相 联 度 
中 率 强制 性 不 命中 容量 不 命中 冲突 不 命中 
1KB 1 路 0.133 0.002 1% 0.080 60% 0.052 39% 
1KB 2 路 0. 105 0. 002 2% 0.080 76% 0.023 22% 
1KB 4 路 0.095 0.002 2% 0.080 84% 0.013 14% 
1KB 8 路 0.087 0.002 2% 0.080 92% 0.005 6% 


~ 
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续 表 
总 不 命 不 命中 率 组 成 (相对 百分比 ) 
Cache 容量 | 相 联 度 
审 率 强制 性 不 命中 容量 不 命中 冲突 不 命中 
2KB 1 路 0. 098 0. 002 2% 0.044 45% 0.052 53% 
2KB 2 路 0.076 0. 002 2% 0.044 58% 0.030 39% 
2KB 4 路 0.064 0. 002 3% 0.044 69% 0.018 28% 
2KB 8 路 0. 054 0.002 4% 0.044 82% 0. 008 14% 
4KB 1 路 0.072 0.002 3% 0.031 43% 0.039 54% 
4KB 2 路 0.057 0. 002 3% 0.031 55% 0. 024 42% 
4KB 4 路 0. 049 0. 002 4% 0.031 64% 0.016 32% 
4KB 8 路 0.039 0. 002 5% 0.031 80% 0.006 15% 
8KB 1 路 0.046 0.002 4% 0.023 51% 0.021 45% 
8KB 2 路 0.038 0. 002 5% 0. 023 61% 0.013 34% 
8KB 4 路 0. 035 0. 002 5% 0.023 66% 0.010 28% 
8KB 8 路 0. 029 0. 002 6% 0.023 79% 0. 004 15% 
16KB 1 路 0. 029 0. 002 7% 0.015 52% 0.012 42% 
16KB 2 路 0.022 0. 002 9% 0.015 68% 0.005 23% 
16KB 4 路 0. 020 0. 002 10% 0.015 74% 0. 003 17% 
16KB 8 路 0.018 0. 002 10% 0.015 80% 0.002 9% 
32KB 1 路 0. 020 0. 002 10% 0.010 52% 0. 008 38% 
32KB 2 路 0.014 0. 002 14% 0.010 74% 0. 002 12% 
32KB 4 路 0.013 0.002 15% 0.010 79% 0.001 6% 
32KB 8 路 0.013 0. 002 15% 0.010 81% 0. 001 4% 
64KB 1 路 0.014 0. 002 14% 0.007 50% 0.005 36% 
64KB 2 路 0.010 0. 002 20% 0. 007 70% 0. 001 10% 
64KB 4 路 0.009 0. 002 21% 0.007 75% 0.000 3% 
64KB 8 路 0. 009 0. 002 22% 0.007 78% 0.000 0 
128KB 1 路 0.010 0. 002 20% 0.004 40% 0.004 40% 
128KB 2 路 0. 007 0. 002 29% 0.004 58% 0.001 14% 
128KB 4 路 0. 006 0. 002 31% 0.004 61% 0.001 8% 
128KB 8 路 0.006 0.002 31% 0.004 62% 0.000 7% 


从 该 表 可 以 看 出 : 
(1) 相 联 度 越 高 ,冲突 不 命中 就 越 少 ; 
(2) 强制 性 不 命中 和 容量 不 命中 不 受 相 联 度 的 影响 ; 
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(3) 强制 性 不 命中 不 受 Cache 容量 的 影响 ,但 容量 不 命中 却 随 着 容量 的 增加 而 减少 。 

图 7.15 是 表 7. 3 中 数据 的 图 示 , 其 中 上 图 为 绝对 不 命中 率 , 下 图 为 各 种 类 型 不 命中 率 
所 占 的 百分比 。 图 中 4 路 组 相 联 的 冲突 不 命中 所 对 应 的 区 域 为 标 有 “4 路 ”和 “8 路 ”两 个 区 
域 的 合并 ,两 路 组 相 联 的 冲突 不 命中 所 对 应 的 区 域 为 标 有 “2 路 ”“4 路 "和 ”8 路 ”三 个 区 域 


的 合并 。 


ss Cache 容 量 /KB 
1 2 4 8 16 32 64 \ 128 


各 种 类 型 强制 性 不 命中 
直接 映像 


] 2 路 (组 相 联 ) 


60% SEN 
| SS 


强制 性 不 命中 
图 7.15 总 不 命中 率 及 3C 的 分 布 情况 


从 图 中 可 以 看 出 ,强制 性 不 命中 率 很 小 。 其 他 许多 运行 时 间 较 长 的 程序 也 是 如 此 。 在 
3C 中 ,冲突 不 命中 似乎 是 最 容易 减少 的 ,只 要 采用 全 相 联 ,就 不 会 发 生 冲 突 不 命中 。 但 是 ， 
用 硬件 实现 全 相 联 是 很 昂贵 的 ,而 且 有 可 能 会 降低 处 理 器 的 时 钟 频率 ,从 而 导致 整体 性 能 的 


下 降 。 至 于 容量 不 命中 ,除了 增 大 Cache 以 外 ,没有 别 的 办 法 。 


另 一 个 减少 3C 的 方法 是 增加 块 的 大 小 ,以 减少 强制 性 不 命中 。 但 在 下 面 将 看 到 , 块 大 


小 增 大 可 能 会 增加 其 他 类 型 的 不 命中 。 
7.3.2 增加 Cache 块 大 小 


降低 不 命中 率 最 简单 的 方法 是 增加 块 大 小 。 图 7. 16 给 出 了 在 不 同 Cache 容量 的 情况 


下 ,不 命中 率 和 块 大 小 的 关系 。 表 7.4 列 出 了 图 7. 16 的 具体 数据 。 


从 图 7. 16 或 表 7.4 可 以 看 出 ,对 于 给 定 的 Cache 容量 , 当 块 大 小 从 16 字 节 开始 增加 时 ,不 
命中 率 开 始 是 下 降 , 但 后 来 反而 上 升 了 。 这 是 为 什么 呢 ? 原 来 增加 块 大 小 会 产生 双重 作用 : 
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10%r---------------------------------- 


16 32 64 128 256 
块 大 小 /B 


图 7.16 不 命中 率 随 块 大 小 变化 的 曲线 


表 7.4 各 种 块 大 小 情况 下 Cache 的 不 命中 率 


Cache 容量 /B 
块 大 小 /B 

4K 16K 64K 256K 

16 8.57% 3.94% 2.04% 1.09% 

32 7.24% 2.87% 1.35% 0.70% 

64 7.00% 2.64% 1.06% 0.51% 
128 7.78% 2.77% 1.02% 0.49% 
256 9.51% 3.29% 1.15% 0.49% 


(1) 增强 了 空间 局 部 性 ,减少 了 强制 性 不 命中 ; 

(2) 减少 了 Cache 中 块 的 数目 ,所 以 有 可 能 会 增加 冲突 不 命中 。 

在 块 大 小 比较 小 的 情况 下 .上述 的 第 一 种 作用 超过 第 二 种 作用 ,从 而 使 不 命中 率 下 降 。 
但 等 到 块 大 小 较 大 时 ,第 二 种 作用 超过 了 第 一 种 作用 .就 反而 使 不 命中 率 上 升 了 。 

Cache 容量 越 大 ,使 不 命中 率 达 到 最 低 的 块 大 小 就 越 大 。 例 如 在 本 例 中 ,对 于 大 小 分 别 
16KB、64KB 和 256KB 的 Cache, 使 不 命中 率 达 到 最 低 的 块 大 小 分 别 为 64B、128B、128B( 或 
256B)。 

此 外 ,增加 块 大 小 同时 也 会 增加 不 命中 开销 ,如 果 这 个 负面 效应 超过 了 不 命中 率 下 降 所 
带 来 的 好 处 ,就 会 使 平均 访 存 时 间 增 加 。 这 时 .即使 降低 不 命中 率 也 是 得 不 偿 失 的 。 所 以 选 
择 块 大 小 时 ,要 综合 考虑 各 方面 的 因素 。 


7.3.3 增加 Cache 的 容量 


从 表 7.3 可 以 看 出 ,降低 Cache 不 命中 率 最 直接 的 方法 是 增加 Cache 的 容量 。 不 过 ,这 
种 方法 不 但 会 增加 成 本 ,而且 还 可 能 增加 命中 时 间 。 这 种 方法 在 片 外 Cache 中 用 得 比较 多 。 


7.3.4 提高 相 联 度 
根据 表 7.3 和 图 7.15, 可 以 得 出 两 条 经 验 规则 。 中 对 于 表 中 所 列 出 的 Cache 容量 ,从 
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实际 应 用 的 角度 来 看 ,在 降低 不 命中 率 方面 ,8 路 组 相 联 的 作用 已 经 和 全 相 联 一 样 有 效 。 也 
就 是 说 ,采用 相 联 度 超过 8 的 方案 的 实际 意义 不 大 。@ 2 : 1 Cache 经 验 规则 : 容量 为 N 的 
直接 映像 Cache 的 不 命中 率 和 容量 为 N/2 的 两 路 组 相 联 Cache 的 不 命中 率 差 不 多 相同 。 

一 般 来 说 ,改进 平均 访 存 时 间 的 某 一 方面 是 以 损失 另 一 方面 为 代价 的 。 例 如 ,增加 块 大 
小 会 增加 不 命中 开销 ,而 提高 相 联 度 则 是 以 增加 命中 时 间 (Hit Time) 为 代价 的 。 为 了 实现 
很 高 的 处 理 器 时 钟 频率 ,需要 设计 结构 简单 的 Cache; 但 时 钟 频率 越 高 ,不 命中 开销 就 越 大 
(所 需 的 时 钟 周期 数 越 多 ) 。 为 减少 不 命中 开销 ,又 要 求 提高 相 联 度 。 


7.3.5 伪 相 联 Cache 


伪 相 联 (Pseudo Associate)Cache 又 称 为 列 相 联 (Column Associate)Cache。 它 既 能 获 
得 多 路 组 相 联 Cache 的 低 不 命中 率 .又 能 保持 直接 映像 Cache 的 命中 速度 。 

当 对 伪 相 联 Cache 进行 访问 时 ,首先 是 按 与 直接 映像 相同 的 方式 进行 访问 。 如 果 命 中 ， 
则 从 相应 的 块 中 取出 所 访问 的 数据 , 送 给 CPU ,访问 结束 。 这 与 直接 映像 Cache 中 的 情况 
完全 相同 ;但 如 果 是 不 命中 ,就 与 直接 映像 Cache 不 同 了 . 伪 相 联 Cache 会 检查 Cache 另 一 
个 位 置 ( 块 ) ,看 是 否 匹 配 。 确 定 这 个 “ 另 一 块 ” 的 一 种 简单 的 方法 是 将 索引 字段 的 最 高 位 取 
反 , 然 后 按照 新 索引 去 寻找 “ 伪 相 联 组 "中 的 对 应 块 , 如 图 7. 17 所 示 。 如 果 这 一 块 的 标识 匹 
配 , 则 称 发 生 了 ”* 伪 命中 ”。 和 否则 ,就 只 好 访问 下 一 级 存储 器 。 


至 CPU 


取出 数据 送 往 CPU 


“ 伪 相 联 组 


图 7.17 伪 相 联 Cache 的 示意 图 


伪 相 联 Cache 具有 一 快 一 慢 两 种 命中 时 间 ,它们 分 别 对 应 于 正常 命中 和 伪 命 中 的 情况 。 
图 7. 18 绘 出 了 它们 的 相对 关系 。 伪 相 联 技术 在 性 能 上 存在 一 种 潜在 的 不 足 : 如 果 直 接 映 
像 Cache 里 的 许多 快速 命中 在 伪 相 联 Cache 中 变 成 慢 速 命中 ,那么 这 种 优化 措施 反而 会 降 
低 整体 性 能 。 所 以 ,要 能 够 指出 在 同一 组 的 两 个 块 中 访问 哪个 块 才 更 可 能 是 快速 命中 。 一 
种 简单 的 解决 方法 是 : 当 出 现 伪 命 中 时 ,交换 两 个 块 的 内 容 ,把 最 近 刚 访问 过 的 块 放 到 第 一 
位 置 ( 即 按 直接 映像 所 对 应 的 块 ) 上 。 这 是 因为 根据 局 部 性 原理 , 刚 访 问 过 的 块 很 可 能 就 是 
下 一 次 要 访问 的 块 。 

尽管 从 理论 上 来 说 , 伪 相 联 是 一 种 很 有 吸引 力 的 方法 ,但 它 的 多 种 命中 时 间 会 使 CPU 
流水 线 的 设计 复杂 化 。 因 此 伪 相 联 技术 往往 是 应 用 在 离 处 理 器 比较 远 的 Cache 上 的 ,例如 
第 二 级 Cache。 


| 
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正常 命中 时 间 
| 人 命中 时 间 | 不 命 电 开销 ,| 
上 多 一 


时 间 
图 7.18 正常 命中 时 间 、 伪 命中 时 间 和 不 命中 开销 之 间 的 关系 


7.3.6 硬件 预 取 


指令 和 数据 都 可 以 在 处 理 器 提出 访问 请 求 之 前 进行 预 取 。 预 取 内 容 可 以 直接 放 入 
Cache 中 ,也 可 以 放 在 一 个 访问 速度 比 主 存 快 的 外 部 缓冲 器 中 。 

指令 预 取 通常 由 Cache 之 外 的 硬件 完成 。 例 如 ,Alpha AXP 21064 微 处 理 器 在 发 生 指 
令 不 命中 时 取 两 个 块 : 被 请 求 指令 块 和 顺序 的 下 一 指令 块 。 被 请 求 指 令 块 返回 时 放 入 
Cache 中 ,而 预 取 的 指令 块 则 放 在 缓冲 器 中 ;如 果 某 次 Cache 访问 不 命中 ,而 相应 的 指令 块 
正好 在 缓冲 器 里 , 则 取消 对 存储 器 的 访问 ,直接 从 缓冲 器 中 读 取 这 一 块 ,同时 发 出 对 下 一 指 
令 块 的 预 取 访 存 请 求 。Alpha AXP 21064 的 指令 缓冲 器 中 只 含 一 个 32 字 节 的 块 。 

Jouppi 的 研究 结果 表明 : 对 于 块 大 小 为 16 字 节 ,容量 为 4KB 的 直接 映像 指令 Cache 
来 说 ,大 小 为 一 个 块 的 指令 缓冲 器 就 可 以 捕获 15% 一 25% 的 不 命中 ,大 小 为 4 个 块 的 指令 
缓冲 器 可 以 捕获 大 约 50% 的 不 命中 ,而 16 个 块 的 缓冲 器 则 可 以 捕获 72% 的 不 命中 。 

我 们 可 以 用 相似 的 技术 预 取 数据 。Jouppi 统计 ,一 个 数据 流 缓冲 器 大 约 可 以 捕获 4KB 
直接 映像 Cache 25% 的 不 命中 。 对 于 数据 Cache, 可 以 采用 多 个 数据 流 缓 冲 器 ,分 别 从 不 同 
的 地 址 预 取 数据 。Jouppi 发 现 ,用 4 个 数据 流 缓冲 器 可 以 将 命中 率 提 高 到 43%。 

Palacharla 和 Kessler 于 1994 年 针对 一 组 科学 计算 程序 ,研究 了 既 能 预 取 指 令 又 能 预 
取 数 据 的 流 缓 冲 器 。 他 们 发 现 ,对 于 一 个 具有 两 个 64KB 4 路 组 相 联 Cache( 一 个 用 于 指令 ， 
一 个 用 于 数据 ) 的 处 理 器 来 说 ,8 个 数据 缓冲 器 能 够 捕获 其 50% 一 70% 的 不 命中 。 

预 取 建 立 在 利用 存储 器 的 空闲 带宽 ( 若 不 采用 预 取 ,这 些 带宽 将 浪费 掉 ) 的 基础 上 。 但 
是 ,如 果 它 影响 了 对 正常 不 命中 的 处 理 ,就 可 能 会 降低 性 能 。 利 用 编译 器 的 支持 ,可 以 减少 
不 必要 的 预 取 。 


7.3.7 编译 器 控制 的 预 取 


这 是 另 一 种 预 取 方 法 。 它 不 是 用 硬件 进行 预 取 ,而 是 由 编译 器 在 程序 中 加 入 预 取 指令 
来 实现 预 取 的 ,这 些 指令 在 数据 被 用 到 之 前 就 将 它们 取 到 寄存 器 或 Cache 中 。 

按照 预 取 数据 所 放 的 位 置 , 可 把 预 取 分 为 以 下 两 种 类 型 。 

(1) 寄存 器 预 取 (Register Prefetch) : 把 数据 取 到 寄存 器 中 。 

(2) Cache 预 取 (Cache Prefetch) : 只 将 数据 取 到 Cache 中 。 

按照 预 取 的 处 理 方式 不 同 ,可 把 预 取 分 为 

(1) 故障 性 预 取 (faulting): 在 预 取 时 , 若 出 现 虚 地 址 故障 或 违反 保护 权限 ,就 会 发 生 
异常 。 

(2) 非 故障 性 预 取 (nonfaulting): 当 出 现 虚 地 址 故障 或 违反 保护 权限 时 ,不 发 生 异 常 ， 
而 是 放弃 预 取 ,转变 为 空 操作 。 
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最 有 效 的 预 取 对 程序 是 “语义 上 不 可 见 的 ”, 它 既 不 会 改变 指令 和 数据 之 间 的 各 种 逻辑 
关系 或 存储 单元 的 内 容 , 也 不 会 造成 虚拟 存储 器 故障 。 本 节 假 定 Cache 预 取 都 是 非 故 障 性 
的 ,也 叫做 非 绑 定 (nonbinding) 预 取 。 

只 有 在 预 取 数据 的 同时 处 理 器 还 能 继续 执行 的 情况 下 , 预 取 才 有 意义 。 这 就 要 求 
Cache 在 等 待 预 取 数据 返回 的 同时 ,还 能 继续 提供 指令 和 数据 。 这 种 灵活 的 Cache 称 为 非 
阻塞 Cache(Nonblocking Cache) 或 非 锁定 Cache(Lockup-free Cache) ,后 面 将 进一步 讨论 。 

编译 器 控制 预 取 的 目的 也 是 要 使 执行 指令 和 读 取 数 据 能 重 倒 执行 。 循 环 是 预 取 优化 的 
主要 对 象 。 如 果 不 命中 开销 较 小 ,编译 器 只 要 简单 地 将 循环 体 展开 一 次 或 两 次 ,并 调度 好 预 
取 和 执行 的 重 释 。 如 果 不 命中 开销 较 大 ,编译 器 就 将 循环 体 展开 许多 次 ,以 便 为 后 面 较 远 的 
循环 预 取 数据 。 

每 次 预 取 需要 花费 一 条 指令 的 开销 ,因此 ,要 注意 保证 这 种 开销 不 超过 预 取 所 带 来 的 收 
益 。 编 译 器 可 以 通过 把 重点 放 在 那些 可 能 会 导致 不 命中 的 访问 上 ,使 程序 避免 不 必要 的 预 
取 , 从 而 较 大 程度 地 减少 平均 访 存 时 间 。 


7.3.8 编译 优化 


这 种 方法 是 通过 对 软件 进行 优化 来 降低 不 命中 率 的 。 与 其 他 降低 Cache 不 命中 率 的 方 
法 相 比 ,这 种 方法 的 特色 是 无 需 对 硬件 做 任何 改动 。 

处 理 器 和 主 存 之 间 的 性 能 差距 越 来 越 大 ,这 促使 编译 器 的 设计 者 们 去 仔细 研究 存储 层 
次 的 行为 ,以 期 能 通过 编译 时 的 优化 来 改进 性 能 。 这 种 研究 分 为 减少 指令 不 命中 和 减少 数 
据 不 命中 两 个 方面 。 下 面 的 优化 技术 在 很 多 编译 器 中 均 有 使 用 。 

1. 程序 代码 和 数据 重组 

我 们 能 很 容易 地 重新 组 织 程序 而 不 影响 程序 的 正确 性 。 例 如 ,把 一 个 程序 中 的 过 程 重 
新 排序 ,就 可 能 会 减少 冲突 不 命中 ,从 而 降低 指令 不 命中 率 。McFarling 研究 了 如 何 使 用 配 
置 文件 (profile) 来 进行 这 种 优化 。 还 有 一 种 优化 ,是 为 了 提高 大 Cache 块 的 效率 。 它 把 基 
本 块 对 齐 ,使 得 程序 的 入口 点 与 Cache 块 的 起 始 位 置 对 齐 ,就 可 以 减少 顺序 代码 执行 时 所 发 
生 的 Cache 不 命中 的 可 能 性 。 

另外 ,如 果 编 译 器 知道 一 个 分 支 指令 很 可 能 会 成 功 转 移 ,那么 它 就 可 以 通过 以 下 两 步 来 
改善 空间 局 部 性 : 四 将 转移 目标 处 的 基本 块 和 紧 跟 着 该 分 支 指令 后 的 基本 块 进行 对 调 ; 
@ 把 该 分 支 指令 换 为 操作 语义 相反 的 分 支 指令 。 

与 代码 相 比 ,数据 对 存储 位 置 的 限制 更 少 , 因 此 更 便于 调整 顺序 。 对 数据 进行 变换 的 目 
的 是 改善 其 空间 局 部 性 和 时 间 局 部 性 。 例 如 ,对 数组 的 运算 可 以 变换 为 对 存放 在 同一 
Cache 块 中 的 所 有 数据 的 操作 ,而 不 是 按照 程序 员 原 来 随意 编写 的 顺序 访问 数组 元 素 。 

编译 优化 技术 包括 数组 合并 .内 外 循环 交换 、 循 环 融 合 .分 块 等 。 数 组 合并 (Merging 
Arrays) 是 将 本 来 相互 独立 的 多 个 数组 合并 成 为 一 个 复合 数组 ,以 提高 访问 它们 的 局 部 性 。 
循环 融合 (Loop Fusion) 是 将 若干 个 独立 的 循环 融合 为 单个 的 循环 。 这 些 循 环 访问 同样 的 
数组 ,对 相同 的 数据 做 不 同 的 运算 。 这 样 能 使 得 读 和 人 Cache 的 数据 在 被 替换 出 去 之 前 ,能 得 
到 反复 的 使 用 。 

下 面 展 开 论 述 内 外 循环 交换 和 分 块 技术 。 


~ 
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2. 内 外 循环 交换 
有 些 程序 中 含有 嵌 套 循环 ,程序 不 是 按照 数据 在 存储 器 中 存储 的 顺序 进行 访问 的 。 在 
这 种 情况 下 ,只 要 简单 地 交换 循环 的 嵌 套 关系 ,就 能 使 程序 按 数 据 在 存储 器 中 存储 的 顺序 进 
行 访问 。 这 种 技术 是 通过 提高 空间 局 部 性 来 减少 不 命中 次 数 的 。 
考虑 以 下 代码 。 
for (j=0; j <100; ji+1) 
for (i=0; i < 5000; i=i+1) 
x [iDI=2x* x [i]0G]; 
该 程序 以 100 个 字 的 跨 距 访 问 存 储 器 ,局 部 性 不 好 。 
把 该 程序 的 内 外 循环 进行 交换 ,可 得 以 下 的 代码 。 


for (i=0; i < 5000; i=i+1) 
for (j=0; j <100; jj+1) 
x [i0]=2* x [i0D]; 
修改 后 的 程序 顺序 依次 地 访问 同一 个 Cache 块 中 的 各 元 素 ,然后 再 访问 下 一 块 中 的 各 
元 素 。 

3. 分 块 

这 种 优化 可 能 是 Cache 优化 技术 中 最 著名 的 一 种 , 它 是 通过 提高 时 间 局 部 性 来 减少 不 
命中 的 。 我 们 还 是 以 对 多 个 数组 的 访问 为 例 , 有 些 数组 是 按 行 访问 的 ,而 有 些 则 是 按 列 访问 
的 。 无 论 数组 是 按 行 优先 还 是 按 列 优先 存储 的 ,都 不 能 解决 问题 ,因为 在 每 一 次 循环 中 既 有 
按 行 访问 也 有 按 列 访问 。 这 种 正 交 的 访问 意味 着 前 面 的 变换 方法 ,如 内 外 循环 交换 ,对 此 无 
能 为 力 。 

分 块 算法 不 是 对 数组 的 整 行 或 整 列 进行 访问 ,而 是 对 子 和 矩阵 或 块 进行 操作 。 其 目的 仍 
然 是 使 一 个 Cache 块 在 被 替换 之 前 最 大 限度 地 利用 它 。 下 面 这 个 矩阵 乘法 程序 会 帮助 我 们 
理解 为 什么 要 采用 这 种 优化 技术 。 

for (i=0;i<N;i=i+1) 

for (=0;j<N;j=j+l) { 

0; 

for (k= 0;k<N;k= kt 1) 
rty[i[k] * z[k Ol; 

x[i] OG]=r; 

} 

两 个 内 部 循环 读 取 了 数组 = 的 全 部 N XN 个 元 素 . 并 反复 读 取 了 数组 y 的 某 一 行 中 的 
N 个 元 素 , 所 产生 的 N 个 结果 被 写 人 数组 zx 的 某 一 行 。 图 7. 19 给 出 了 当 ;一 1 时 ,对 三 个 
数组 的 访问 情况 。 其 中 黑色 表示 最 近 被 访问 过 ,灰色 表示 早 些 时 候 被 访问 过 ,而 白色 表示 尚 
未 被 访问 。 

显然 ,容量 不 命中 次 数 的 多 少 取决 于 N 和 Cache 的 容量 。 如 果 Cache 只 能 放下 一 个 
NXAN 的 数组 和 一 行 N 个 元 素 , 那 么 至 少数 组 y 的 第 i 行 和 数组 < 的 全 部 元 素 能 同时 放 在 
Cache 中 。 如 果 Cache 的 容量 还 要 小 的 话 , 对 工 或 x 的 访问 都 可 能 导致 不 命中 。 在 最 坏 的 
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图 7.19 当 i=1 时 ,对 zz,y,z 三 个 数组 的 访问 情况 


ww -oo 


wo -oo 


情况 下 ,IN 次 操作 会 导致 2N’ 十 N? 次 不 命中 。 

为 了 保证 正在 访问 的 元 素 能 在 Cache 中 命中 ,把 原 程序 改 为 只 对 大 小 为 BXB 的 子 数 
组 进行 计算 ,而 不 是 像 原来 那样 ,从 zx 和 < 的 第 一 个 元 素 开 始 一 直 处 理 到 最 后 一 个 。 

图 7. 20 说 明了 分 块 后 对 三 个 数组 的 访问 情况 。 与 图 7. 19 相 比 ,所 访问 的 元 素 个 数 减 
少 了 。 只 考虑 容量 不 命中 ,访问 存储 器 的 总 字数 为 2N/B 十 N? 次 ,大 约 降低 到 原来 的 
1/B。 分 块 技术 同 时 利用 了 空间 局 部 性 和 时 间 局 部 性 ,因为 访问 > 时 利用 了 空间 局 部 性 ,而 
访问 = 时 利用 了 时 间 局 部 性 。 


ww 一 一 
ww 一 一 
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图 7.20 分 块 后 对 数组 ,ys 的 访问 


虽然 我 们 的 目标 一 直 是 减少 Cache 的 不 命中 ,分 块 技术 还 有 助 于 进行 寄存 器 分 配 。 通 
过 减 小 块 大 小 ,使 得 寄存 器 能 容纳 下 整个 Cache 块 ,我 们 可 以 把 程序 中 的 load 和 store 操作 
的 次 数 减少 到 最 少 。 

上 述 两 小 节 重 点 讨论 了 针对 Cache 优化 了 的 编译 器 和 程序 可 能 带 来 的 好 处 。 随 着 时 间 
的 推移 ,处 理 器 速度 和 存储 器 速度 之 间 的 差距 越 来 越 大 ,这 种 好 处 的 重要 性 只 会 越 来 越 大 。 


7.3.9 “ 季 特 ?Cache 


这 种 方法 是 在 Cache 和 其 下 一 级 存储 器 的 数据 通路 上 增设 一 个 全 相 联 的 小 Cache, 称 
为 “牺牲 "Cache。“ 牺 牲 ?Cache 中 存放 因 冲 突 而 被 替换 出 去 的 那些 块 ( 即 * 牺 牲 者 ") 。 每 当 
发 生 不 命中 时 ,在 访问 下 一 级 存储 器 之 前 , 先 检查 “牺牲 "Cache 中 是 否 含有 所 需 的 块 。 如 果 
有 ,就 将 该 块 与 Cache 中 某 个 块 ( 按 蔡 换 规则 选择 ) 做 交换 ,把 所 需 的 块 从 “牺牲 "Cache 调 入 
Cache。Jouppi 于 1990 年 发 现 , 含 1 一 5 项 的 “牺牲 ”Cache 对 减少 冲突 不 命中 很 有 效 , 尤 其 
是 对 于 那些 小 型 的 直接 映像 数据 Cache 更 是 如 此 。 对 于 不 同 的 程序 ,一 个 项 数 为 4 的 “ 牺 
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牲 ?Cache 能 使 一 个 4KB 直接 映像 数据 Cache 的 冲突 不 命中 减少 20% 一 90%。 

从 Cache 的 层次 来 看 “牺牲 ”Cache 可 以 看 成 位 于 Cache 和 存储 器 之 间 的 又 一 级 
Cache, 它 容量 小 ,采用 命中 率 较 高 的 全 相 联 映像 ,而且 仅仅 在 替换 时 发 生 作用 。 

这 里 ,我 们 是 把 “牺牲 ”Cache 归 类 为 减少 不 命中 率 的 方法 。 这 是 因为 我 们 把 “牺牲 
Cache 看 成 Cache 向 下 的 扩展 , 即 把 在 “牺牲 ?Cache 中 找到 所 需 的 数据 也 算是 命中 。 实 际 
上 ,如 果 把 “牺牲 ?Cache 归 到 下 一 级 存储 器 , 即 “ 站 在 ”Cache 和 “牺牲 "Cache 之 间 来 看 问题 ， 
把 “牺牲 "Cache 归 类 为 减少 不 命中 开销 的 方法 也 是 可 以 的 。 前 面 介绍 的 伪 相 联 和 预 取 技术 
等 也 都 是 如 此 。 


7.4 减少 Cache 不 命中 开销 


Cache 性 能 公式 告诉 我 们 ,减少 Cache 不 命中 开销 时 间 是 提高 Cache 性 能 的 另 一 种 有 
效 途径 。 此 外 ,图 7.4 说 明 , 随 着 技术 的 发 展 ,处 理 器 速度 的 提高 要 快 于 DRAM 速度 的 提 
高 ,这 使 得 Cache 不 命中 开销 的 相对 代价 随时 间 不 断 增加 。 下 面 将 讨论 解决 这 一 问题 的 
5 种 优化 措施 : 采用 两 级 Cache .让 读 不 命中 优先 于 写 . 写 缓冲 合并 、 请 求 字 处 理 技术 , 非 
阻塞 Cache 技术 。 其 中 第 一 种 是 通过 增加 另 一 级 Cache 来 减少 不 命中 开销 的 ,这 是 采用 
比较 多 的 方法 。 


7.4.1 采用 两 级 Cache 


许多 减少 不 命中 开销 的 技术 会 对 CPU 产生 影响 。 与 之 不 同 , 本 小 节 介 绍 的 技术 是 在 
Cache 和 主 存 之 间 进 行 改进 ,而 不 去 影响 CPU 。 
为 了 解决 CPU 与 存储 器 之 间 性 能 差距 越 来 越 大 的 问题 , 当 一 级 Cache 不 能 满足 要 求 
时 ,可 以 通过 在 原 有 Cache 和 存储 器 之 间 增 设 另 一 级 Cache, 构 成 两 级 Cache。 这 样 ,就 可 以 
把 第 一 级 Cache 做 得 足够 小 ,使 其 速度 和 快速 CPU 的 时 钟 周期 相 匹 配 ; 同 时 ,通过 把 第 二 级 
Cache 做 得 足够 大 ,使 它 能 捕获 更 多 本 来 需要 到 主 存 去 的 访问 ,从 而 降低 实际 不 命中 开销 。 
增加 一 级 存储 层次 在 概念 上 是 直观 和 简单 的 。 但 其 性 能 分 析 却 变 得 复杂 多 了 。 用 下 标 
L1 和 LL2 分 别 表示 第 一 级 和 第 二 级 Cache, 则 原 有 的 平均 访 存 时 间 公 式 就 变 为 
平均 访 存 时 间 = 命中 时 间 十 不 命中 率 L X 不 命中 开销 
不 命中 开销 = 命中 时 间 十 不 命中 率 1。 X 不 命中 开销 
所 以 ， 
平均 访 存 时 间 = 命中 时 间 u 十 不 命中 率 m X (命中 时 间 1s 
十 不 命中 率 1。 X 不 命中 开销 ) 
在 这 个 公式 里 ,第 二 级 Cache 的 不 命中 率 是 以 在 第 一 级 Cache 中 不 命中 而 到 达 第 二 级 
Cache 的 访 存 次 数 为 分 母 来 计算 的 。 为 避免 二 义 性 ,引入 以 下 两 个 术语 : 
1) 局 部 不 命中 率 
对 于 某 一 级 Cache 来 说 ， 
局 部 不 命中 率 = 该 级 Cache 的 不 命中 次 数 / 到 达 该 级 Cache 的 访 存 次 数 
对 于 第 一 级 Cache 来 说 ,其 局 部 不 命中 率 就 是 上 面 的 不 命中 率 u ,对 于 第 二 级 Cache 来 
说 ,就 是 上 面 的 不 命中 率 1。 
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2) 全 局 不 命中 率 
对 于 某 一 级 Cache 来 说 ， 
全 局 不 命中 率 = 该 级 Cache 的 不 命中 次 数 /CPU 发 出 的 访 存 总 次 数 
使 用 上 面 公式 中 的 变量 ,第 二 级 Cache 的 全 局 不 命中 率 就 是 
全 局 不 命中 率 1。 = 不 命中 率 X 不 命中 率 1。 

全 局 不 命中 率 是 一 个 比 局 部 不 命中 率 更 有 用 的 衡量 指标 , 它 指 出 了 在 CPU 发 出 的 访 
存 中 , 究 竞 有 多 大 比例 是 穿 过 各 级 Cache, 最 终 到 达 存储 器 的 。 

采用 两 级 Cache 时 ,每 条 指令 的 平均 访 存 停顿 时 间 为 

每 条 指令 的 平均 访 存 停顿 时 间 = 每 条 指令 的 平均 不 命中 次 数 L, X 命中 时 间 1s 

十 每 条 指令 的 平均 不 命中 次 数 .。X 不 命中 开销 1 

例 7.3 考虑 某 一 两 级 Cache, 第 一 级 Cache 为 L1, 第 二 级 Cache 为 L2。 

(1) 假设 在 1000 次 访 存 中 ,Ll 的 不 命中 是 40 次 ,L2 的 不 命中 是 20 次 。 求 各 种 局 部 不 
命中 率 和 全 局 不 命中 率 。 

(2) 假设 L2 的 命中 时 间 是 10 个 时 钟 周期 ,L2 的 不 命中 开销 是 100 时 钟 周期 ,L1 的 命 
中 时 间 是 1 个 时 钟 周期 ,平均 每 条 指令 访 存 1. 5 次 ,不 考虑 写 操 作 的 影响 。 问 : 平均 访 存 时 
间 是 多 少 ? 每 条 指令 的 平均 停顿 时 间 是 多 少 个 时 钟 周期 ? 

解 

(1) 第 一 级 Cache 的 不 命中 率 ( 全 局 和 局 部 ) 是 40/1000 二 4%。 

第 二 级 Cache 的 局 部 不 命中 率 是 20/40 二 50% 。 

第 二 级 Cache 的 全 局 不 命中 率 是 20/1000 王 2%% 。 

(2) 平均 访 存 时 间 三 命中 时 间 十 不 命中 率 u X (命中 时 间 1 


十 不 命中 率 1 X 不 命中 开销 2) 
三 1 十 4%X(10 二 50% X100)= 二 1 十 4% X60 
三 3.4 个 时 钟 周期 


由 于 平均 每 条 指令 访 存 1.5 次 , 且 每 次 访 存 的 平均 停顿 时 间 为 3. 4 一 1.0 一 2.4。 
所 以 
每 条 指令 的 平均 停顿 时 间 = 2.4 X 1.5 = 3.6 个 时 钟 周期 

请 注意 ,上 述 公 式 是 针对 读 写 混合 操作 而 言 的 ,而 且 假 设 第 一 级 Cache 采用 写 回 法 。 当 
采用 写 直达 法 时 ,第 一 级 Cache 将 把 所 有 的 写 访问 送 往 第 二 级 Cache。 

对 于 第 二 级 Cache, 有 以 下 结论 。 

(1) 在 第 二 级 Cache 比 第 一 级 Cache 大 得 多 的 情况 下 ,两 级 Cache 的 全 局 不 命中 率 和 
容量 与 第 二 级 Cache 相同 的 单 级 Cache 的 不 命中 率 非常 接近 。 这 时 可 以 利用 前 面 关于 单 级 
Cache 的 知识 和 结论 来 分 析 它 们 。 

(2) 局 部 不 命中 率 不 是 衡量 第 二 级 Cache 的 一 个 好 指标 ,因为 它 会 随 第 一 级 Cache 参 
数 的 变化 而 跟着 变化 ,而 且 不 能 全 面 地 反映 两 级 Cache 体系 的 性 能 。 因 此 ,在 评价 第 二 级 
Cache 时 ,应 该 用 全 局 不 命中 率 这 个 指标 。 

第 一 级 Cache 和 第 二 级 Cache 之 间 的 首要 区 别 是 : 第 一 级 Cache 的 速度 会 影响 CPU 
的 时 钟 频率 ,而 第 二 级 Cache 的 速度 只 影响 第 一 级 Cache 的 不 命中 开销 。 因 此 .在 设计 第 二 
级 Cache 时 可 以 有 更 多 的 考虑 空间 ,许多 不 适合 于 第 一 级 Cache 的 方案 对 于 第 二 级 Cache 


~ 
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却 可 以 使 用 。 设 计 第 二 级 Cache 只 有 两 个 问题 需要 权衡 ,一 个 是 它 能 否 降低 CPI 中 的 平均 
访 存 时 间 部 分 ? 另 一 个 是 它 的 成 本 是 多 少 ? 

由 于 第 一 级 Cache 中 的 所 有 信息 都 会 出 现在 第 二 级 Cache 中 ,所 以 一 般 来 说 ,第 二 级 
Cache 的 容量 应 比 第 一 级 的 大 许多 。 如 果 第 二 级 Cache 只 是 稍 大 一 点 ,局 部 不 命中 率 将 很 
高 。 因 此 ,第 二 级 Cache 的 容量 一 般 很 大 ,和 过 去 计算 机 的 主 存 一 样 大 ! 大 容量 意味 着 第 二 
级 Cache 可 能 实际 上 没有 容量 不 命中 ,只 剩 下 一 些 强制 性 不 命中 和 冲突 不 命中 。 

下 面 我 们 来 讨论 一 个 问题 : 相 联 度 对 第 二 级 Cache 的 作用 是 否 会 更 大 ? 

例 7.4 给 出 有 关 第 二 级 Cache 的 以 下 数据 : 

(1) 对 于 直接 映像 ,命中 时 间 1, 二 10 个 时 钟 周期 。 

(2) 两 路 组 相 联 使 命中 时 间 增 加 0. 1 个 时 钟 周期 , 即 为 10. 1 个 时 钟 周期 。 

(3) 对 于 直接 映像 ,局 部 不 命中 率 , 二 25%。 

(4) 对 于 两 路 组 相 联 ,局 部 不 命中 率 1, 二 20%。 

(5) 不 命中 开销 一 50 个 时 钟 周 期 。 

试问 第 二 级 Cache 的 相 联 度 对 不 命中 开销 的 影响 如 何 ? 

解 ” 对 一 个 直接 映像 的 第 二 级 Cache 来 说 ,第 一 级 Cache 的 不 命中 开销 为 

不 命中 开销 让 二 上 ,一 10 十 25% X 50 = 22. 5 个 时 钟 周期 

对 于 两 路 组 相 联 第 二 级 Cache 来 说 ,命中 时 间 增 加 了 10%, 即 为 10. 1 个 时 钟 周期 , 故 

第 一 级 Cache 的 不 命中 开销 为 
不 命中 开销 两 路 组 相 联 ,Li 一 10. 1 十 20% X 50 = 20. 1 个 时 钟 周 期 

在 实际 机 器 中 ,第 二 级 Cache 几乎 总 是 和 第 一 级 Cache 以 及 CPU 同步 的 。 相 应 地 ,第 
二 级 Cache 的 命中 时 间 必 须 是 时 钟 周期 的 整数 倍 。 如 果 幸 运 的 话 , 可 以 把 该 命中 时 间 取 整 
为 10 个 时 钟 周期 ,否则 就 只 好 取 整 为 11 个 时 钟 周期 , 即 

不 命中 开销 两 路 组 相 联 ,Ll 一 10 十 20% X 50 = 20.0 个 时 钟 周 期 
或 


不 命中 开销 两 中 组 了, 一 11 十 20% X 50 = 21. 0 个 时 钟 周期 

不 管 怎样 ,都 比 直接 映像 第 二 级 Cache 好 。 

可 以 利用 7. 3 节 介 绍 的 技术 来 减少 第 二 级 Cache 的 不 命中 率 ,从 而 达到 减少 不 命中 开 
销 的 目的 。 提 高 相 联 度 和 伪 相 联 方法 都 值得 考虑 ,因为 它们 对 第 二 级 的 命中 时 间 影 响 很 小 ， 
而 且 平均 访 存 时 间 中 很 大 一 部 分 是 由 于 第 二 级 Cache 的 不 命中 而 产生 的 。 虽 然 较 大 容量 的 
第 二 级 Cache 消除 了 一 些 冲突 不 命中 ( 因 块 数 增加 了 ) .但 它 同 时 也 减少 了 容量 不 命中 ,所 以 
在 直接 映像 的 第 二 级 Cache 中 ,冲突 不 命中 所 占 的 比例 依然 很 大 。 

对 于 第 二 级 Cache 来 说 ,同样 也 可 以 采用 增加 块 大 小 的 方法 来 减少 其 不 命中 率 。 前 面 
我 们 已 经 得 出 这 样 的 结论 : Cache 块 的 大 小 增加 到 一 定 程度 后 .反而 可 能 导致 不 命中 率 上 
升 。 但 对 于 大 容量 的 第 二 级 Cache 来 说 ,这 一 点 并 不 成 为 问题 ,因为 它 容量 大 ,使 其 不 命中 
率 达到 最 低 的 块 大 小 也 比较 大 。64 字 节 、128 字 节 甚至 256 字 节 的 块 大 小 都 是 第 二 级 
Cache 经 常 采用 的 。 

需要 考虑 的 另 一 个 问题 是 第 一 级 Cache 中 的 数据 是 否 总 是 同时 存在 于 第 二 级 Cache 中 
的 。 如 果 是 的 话 ,就 说 第 二 级 Cache 具有 多 级 包容 性 (Multilevel Inclusion Property)。 多 
级 包容 性 是 我 们 所 希望 的 ,因为 它 便于 实现 1/O 和 Cache 之 间 内 容 一 致 性 的 检测 。 
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为 了 减少 平均 访 存 时 间 , 可 以 让 容量 较 小 的 第 一 级 Cache 采用 较 小 的 块 ,而 让 容量 较 大 
的 第 二 级 Cache 采用 较 大 的 块 。 在 这 种 情况 下 , 仍 可 实现 包容 性 ,但 在 处 理 第 二 级 Cache 不 
命中 时 要 做 更 多 的 工作 : 替换 第 二 级 Cache 中 的 块 时 ,必须 作废 所 有 对 应 于 该 块 的 第 一 级 
Cache 中 的 块 。 这 样 不 但 会 使 第 一 级 Cache 的 不 命中 率 有 所 增加 ,而 且 会 造成 不 必要 的 作 
废 操 作 。 如 果 结 合 使 用 其 他 一 些 性 能 优化 技术 (如 非 阻 塞 的 第 二 级 Cache) ,包容 性 就 会 进 
一 步 增加 复杂 度 。 

综合 上 述 考虑 ,Cache 设计 的 本 质 是 在 快速 命中 和 减少 不 命中 次 数 这 两 个 方面 进行 权 
衡 。 大 部 分 优化 措施 都 是 在 提高 一 方 的 同时 损害 另 一 方 。 对 于 第 二 级 Cache 而 言 ,由 于 它 
的 命中 次 数 比 第 一 级 Cache 少 得 多 ,所 以 重点 就 放 在 减少 其 不 命中 次 数 上 。 这 就 导致 了 更 
大 容量 ,更 高 相 联 度 和 块 更 大 的 Cache 的 出 现 。 


7.4.2 让 读 不 命中 优先 于 写 


在 写 直 达 Cache 中 ,每 次 写 访问 都 要 对 主 存 进行 写 人 。 为 了 提高 性 能 ,一 般 都 是 设置 一 
个 大 小 适中 的 写 缓冲 器 。 不 过 , 写 缓冲 器 却 导 致 存储 器 访问 的 复杂 化 ,因为 在 读 不 命中 时 ， 
所 读 单 元 的 最 新 值 有 可 能 还 在 写 缓冲 器 中 ,尚未 写 人 主 存 。 

解决 这 个 问题 最 简单 的 办 法 是 推迟 对 读 不 命中 的 处 理 , 直 至 写 缓 冲 器 清空 。 由 于 在 发 
生 读 不 命中 时 , 写 缓冲 器 中 几乎 总 是 有 数据 的 ,这 就 增加 了 处 理 读 不 命中 的 开销 。 另 一 种 方 
法 是 在 读 不 命中 时 检查 写 缓冲 器 的 内 容 , 如 果 没 有 冲突 ( 即 没 有 地 址 相同 ) 而 且 存 储 器 可 访 
问 ,就 可 继续 处 理 读 不 命中 。 几 乎 所 有 的 桌面 计算 机 和 服务 器 都 采用 了 后 一 种 方法 , 即 让 读 
不 命中 优先 于 写 。 

在 写 回 法 Cache 中 ,也 可 以 利用 写 缓冲 器 来 提高 性 能 。 假 定 读 不 命中 将 替换 一 个 修改 过 
的 存储 块 。 我 们 可 以 不 像 往常 那样 先 把 该 块 写 回 存储 器 ,然后 再 从 读 存储 器 调 块 ,而 是 先 把 被 
替换 的 块 临时 复制 到 一 个 缓冲 器 中 ,然后 从 存储 器 调 块 ,最 后 再 把 缓冲 器 中 的 内 容 写 人 存储 
器 。 这 样 CPU 的 读 访问 就 能 更 快 地 完成 了 。 和 上 面 的 情况 类 似 ,发 生 读 不 命中 时 ,处 理 器 既 
可 以 采用 等 待 缓冲 区 清空 的 方法 ,也 可 以 采用 检查 与 缓冲 器 中 各 字 的 地 址 是 否 有 冲突 的 方法 。 


7.4.3 写 绥 冲 合并 


为 了 减少 写 访问 所 花 的 时 间 , 写 直达 Cache 一 般 都 采用 一 个 写 缓 冲 器 。 如 果 该 缓冲 器 
不 满 ,就 可 以 把 数据 和 相应 地 址 写 入 该 缓冲 器 。 从 CPU 的 角度 来 看 ,这 个 写 操作 就 算是 完 
成 了 ,CPU 可 以 继续 执行 后 面 的 指令 ,而 写 缓冲 器 则 负责 将 其 写 和 存储器。 在 写 缓冲 器 不 
为 空 的 情况 下 , 则 需要 把 这 次 的 写 人 地 址 与 写 缓冲 器 中 已 有 的 所 有 地 址 进行 比较 ,看 是 否 有 
匹配 的 项 。 如 果 有 地 址 匹配 而 对 应 的 位 置 又 是 空闲 的 ,就 把 这 次 要 写 和 的 数据 与 该 项 合并 。 
这 就 叫 写 缓冲 合并 ,如 图 7.21(b) 所 示 。 当 然 . 如 果 写 缓冲 器 满 且 没有 能 进行 写 合并 的 项 ， 
就 只 好 等 待 。 

在 图 7. 21 给 出 了 采用 和 不 采用 写 合 并 的 例子 。 这 里 假设 写 缓冲 器 有 4 项 ,每 项 能 够 存 
放 4 个 64 位 的 字 。 图 中 V 代表 有 效 位 。 当 不 采用 写 合 并 时 , 写 人 4 个 连续 存放 的 数据 ,就 
会 使 写 缓冲 器 满 了 ,3/4 的 空间 被 浪费 。 而 当 采 用 写 合 并 时 , 则 只 需 占用 一 个 项 。 

可 以 看 出 ,这 种 技术 不 仅 提 高 了 写 缓冲 器 的 空间 利用 率 ,而 且 还 能 减少 因 写 缓冲 器 满 而 
等 待 的 时 间 。 
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写 地 址 yy V V ; 
100 | | 1 | Mem[100] | 0 0 0 
108 | | 1| Mem[108] | 0 0 0 
116 | | 1| Mem[l16] | 0 0 0 
124 | | 1|Mem[124] | 0 0 0 

(a) 不 采用 写 合并 
写 地 址 4 V 所 
100 | | 1 | Mem[100] | 1 | Mem[108] | 1 | Mem[116] | 1 | Mem[124] 
0 0 0 0 
0 0 0 0 
0 0 0 0 
(b) 采用 了 写 合 


图 7.21 写 缓冲 器 的 两 种 方案 


7.4.4 请 求 字 处 理 技术 


与 前 面 减少 不 命中 开销 的 方法 不 同 , 本 小 节 介 绍 的 方法 不 用 增加 硬件 。 当 从 存储 器 向 
CPU 调 入 一 块 时, 块 中 往往 只 有 一 个 字 是 CPU 立即 需要 的 ,这 个 字 称 为 请 求 字 (Requested 
Word) 。 

请 求 字 处 理 技 术 正 是 着 眼 于 这 种 请 求 字 的 特性 。 当 CPU 所 请 求 的 字 到 达 后 ,不 等 整 
个 块 都 调和 人 Cache, 就 可 把 该 字 发 送 给 CPU 并 重启 CPU 继续 执行 ,有 两 种 具体 的 方案 。 

(1) 尽早 重启 动 (Early Restart) : 在 请 求 字 没 有 到 达 时 ,CPU 处 于 等 待 状态 。 一 旦 请 
求 字 到 达 ,就 立即 发 送 给 CPU ,让 等 待 的 CPU 尽早 重启 动 ,继续 执行 。 

(2) 请 求 字 优先 (Requested Word First) : 调 块 时 ,让 存储 器 首先 提供 CPU 所 要 的 请 求 
字 。 请 求 字 一 旦 到 达 , 就 立即 送 给 CPU, 让 CPU 继续 执行 ,同时 从 存储 器 调和 人 该 块 的 其 余 
部 分 。 请 求 字 优先 也 称 为 回 绕 读 取 (Wrapped Fetch) 或 关键 字 优 先 (Critical Word First) 。 

一 般 来 说 ,这 些 技术 仅 当 Cache 块 很 大 时 才 有 效 。 因 为 当 Cache 块 较 小 时 ,用 不 用 这 些 
技术 ,不 命中 开销 差别 不 大 。 此 外 ,在 采用 请 求 字 优 先 时 , 若 下 一 条 指令 正好 访问 Cache 块 
的 另 一 部 分 (以 请 求 字 为 界 , 该 Cache 块 被 分 为 两 部 分 ), 则 只 能 节省 一 个 时 钟 周期 ,因为 只 
有 得 到 请 求 字 的 指令 在 流水 线 中 可 以 继续 前 进 ,下 一 条 指令 还 是 必须 停 下 来 等 待 所 需 的 
数据 。 


7.4.5 非 阻塞 Cache 技术 


采用 尽早 重启 动 技术 时 ,在 请 求 字 到 达 之 前 ,CPU 还 是 要 处 于 等 待 状态 。 有 些 流水 方 
式 的 机 器 采用 记分 牌 或 Tomasulo 类 ( 见 第 5 章 ) 控 制 方法 ,允许 指令 乱 序 执行 (后 面 的 指令 
可 以 跨越 前 面 的 指令 先 执行 ),CPU 无 须 在 Cache 不 命中 时 停顿 。 例 如 ,不 命中 发 生 后 ， 
CPU 在 等 待 数据 Cache 给 出 数据 的 同时 ,有 可 能 继续 执行 后 面 的 指令 。 如 果 采 用 非 阻塞 
(nonblocking) Cache 或 非 锁定 (lockup-free) Cache 技术 .就 可 以 把 CPU 的 性 能 提高 得 更 
多 ,因为 这 种 Cache 在 不 命中 时 仍 允 许 CPU 进行 其 他 的 访问 (但 只 能 是 命中 的 访问 ) 。 这 种 
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“不 命中 下 的 命中 ”(Hit under Miss) 的 优化 措施 在 Cache 不 命中 时 ,不 是 完全 拒绝 CPU 的 
访问 ,而 是 能 处 理 部 分 访问 ,从 而 减少 了 实际 不 命中 开销 。 如 果 更 进一步 ,让 Cache 允许 多 
个 不 命中 重 又 , 即 支持 “多 重 不 命中 下 的 命中 ”(Hit under Multiple Miss) 和 “不 命中 下 的 不 
命中 ”(Miss under Miss) , 则 可 进一步 减少 实际 不 命中 开销 。 不 过 ,这 种 方法 只 有 在 存储 器 
能 处 理 多 个 不 命中 的 情况 下 才能 带 来 好 处 。 

可 以 同时 处 理 的 不 命中 次 数 越 多 ,所 能 带 来 的 性 能 上 的 提高 就 越 大 。 但 这 并 不 意味 着 
不 命中 次 数 越 多 越 好 。 有 人 对 数据 Cache 的 平均 存储 器 等 待 时 间 ( 以 周期 为 单位 ) 与 阻塞 
Cache 平均 存储 器 等 待 时 间 的 比值 进行 了 模拟 研究 。 测 试 条 件 为 8KB 直接 映像 Cache, 块 
大 小 为 32 字 节 。 测 试 程序 为 SPEC92(14 个 浮 点 程序 ,4 个 整数 程序 )。 结 果 表 明 , 在 重 伙 
不 命中 个 数 为 1.2 和 64 的 情况 下 , 浮 点 程序 的 平均 比值 分 别 为 76%、51% 和 39% ,而 整数 
程序 的 平均 比值 则 分 别 为 81%、78% 和 78%。 这 说 明 , 对 于 整数 程序 来 说 ,重生 次 数 对 性 能 
提高 影响 不 大 ,简单 的 “一 次 不 命中 下 命中 ”就 几乎 可 以 得 到 所 有 的 好 处 。 

非 阻塞 Cache 大 大 增加 了 Cache 控制 器 的 复杂 度 。 特 别 是 多 重合 的 非 阻塞 Cache, 更 
是 如 此 。 所 以 ,在 设计 时 要 做 全 面 综合 考虑 。 


7.5 减少 命中 时 间 


本 节 讨论 减少 命中 时 间 的 技术 。 命 中 时 间 也 是 平均 访 存 时 间 的 三 个 组 成 部 分 之 一 。 

减少 命中 时 间 是 设计 Cache 的 重要 工作 之 一 ,因为 它 直接 影响 到 处 理 器 时 钟 频 率 的 高 
低 。 在 当今 的 许多 计算 机 中 ,往往 是 Cache 的 访问 时 间 限 制 了 处 理 器 系统 时 钟 频率 的 提高 
即使 在 Cache 访问 时 间 为 几 个 时 钟 周期 的 计算 机 中 亦 是 如 此 。 因 此 ,一 定 要 设法 减少 命中 
时 间 。 


7.5.1 容量 小 .结构 简单 的 Cache 


为 了 有 效 地 减少 Cache 的 命中 时 间 ,可 以 采用 容量 小 、 结 构 简单 的 Cache。 用 地 址 的 索 
引 部 分 访问 标识 存储 器 , 读 出 标识 并 与 地 址 进行 比较 ,是 Cache 命中 访问 过 程 中 最 耗 时 的 部 
分 。 我 们 知道 ,硬件 越 简单 ,速度 就 越 快 。 小 容量 Cache 对 减少 命中 时 间 当 然 有 益 。 而 且 应 
使 Cache 容量 足够 小 ,以 便 可 以 与 处 理 器 做 在 同一 芯片 上 ,避免 因 片 外 访问 而 增加 时 间 开 
销 , 这 一 点 是 非常 重要 的 。 有 些 设计 采用 了 一 种 折 中 方案 : 把 Cache 的 标识 放 在 片 内 ,而 把 
Cache 的 数据 存储 体 放 在 片 外 ,这 样 既 可 以 实现 快速 标识 检测 ,又 能 利用 独立 的 存储 芯片 来 
提供 更 大 的 容量 。 此 外 ,还 要 保持 Cache 结构 的 简单 性 ,例如 采用 直接 映像 Cache。 直 接 映 
像 Cache 的 主要 优点 是 可 以 让 标识 检测 和 数据 传送 同时 进行 ,从 而 有 效 地 减少 命中 时 间 。 


7.5.2 虚拟 Cache 


在 采用 虚拟 存储 器 的 计算 机 中 ,每 次 访 存 都 必须 进行 虚实 地 址 的 转换 ,即将 CPU 发 出 
的 虚 地 址 转换 为 物理 地 址 ,这 一 般 是 由 存储 管理 部 件 (MMU) 完 成 的 。 

1. 物理 Cache 

按照 访问 Cache 的 地 址 是 物理 地 址 还 是 虚拟 地 址 ,可 把 Cache 分 为 物理 Cache 和 虚拟 
Cache。 物 理 Cache 是 指使 用 物理 地 址 进行 访问 的 传统 Cache, 其 标识 存储 器 中 存放 的 是 物 
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理 地 址 ,进行 地 址 检测 也 是 用 物理 地 址 ,如 图 7. 22 所 示 。 当 CPU 要 访问 存储 器 时 ,给 出 一 
个 虚拟 地 址 ,由 MMU 中 的 地 址 转换 部 件 把 该 地 址 转换 为 主 存 物理 地 址 。 然 后 再 用 这 个 物 
理 地 址 去 访问 Cache。 如 果 要 访问 的 数据 或 指令 在 Cache 中 被 找到 , 则 Cache 命 中。 否则 ， 
就 是 不 命中 。 这 时 要 用 这 个 物理 地 址 去 访问 存储 器 ,取出 一 块 数据 或 指令 装 入 Cache。 物 
理 Cache 的 缺点 是 地 址 转换 和 访问 Cache 串 行 进行 ,访问 速度 很 慢 。 


虚拟 地 址 物理 地 址 


MMU 
CPU Cache 主 存储 器 


数据 或 指令 


图 7.22 物理 Cache 存储 系统 


2. 虚拟 Cache 

虚拟 Cache 是 指 可 以 直接 用 虚拟 地 址 进行 访问 的 Cache, 其 标识 存储 器 中 存放 的 是 虚 
拟 地 址 ,进行 地 址 检测 用 的 也 是 虚拟 地 址 。 当 CPU 要 访问 存储 器 时 ,把 虚拟 地 址 同时 送 给 
Cache 和 MMU ,如 图 7.23 所 示 。Cache 根据 该 虚拟 地 址 把 CPU 所 需 的 数据 或 指令 找 出 
来 。 如 果 Cache 不 命中 ,就 要 用 经 过 MMU 转换 得 到 的 主 存 物理 地 址 访问 主 存 , 读 出 相应 
的 块 , 装 入 Cache 中 。 虚 拟 Cache 的 优点 是 在 命中 时 不 需要 地 址 转换 ,因而 也 就 省 去 了 地 址 
转换 的 时 间 。 另 外 ,即使 不 命中 ,地 址 转换 和 访问 Cache 也 是 并 行进 行 的 ,其 速度 比 物理 
Cache 快 很 多 。 


物理 地 址 
| MMU 广 -一 一 一 
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图 主 存储 器 
PU Cache 


图 7.23 虚拟 Cache 存储 系统 


然而 ,并 非 所 有 计算 机 都 采用 虚拟 Cache。 其 原因 之 一 ,是 每 当 进 行进 程 切 换 时 需要 清 
空 Cache。 这 是 由 于 新 进程 的 虚拟 地 址 有 可 能 与 原 进程 的 相同 .但 它们 所 指向 的 物理 空间 
却 是 不 同 的 。 图 7. 24 说 明了 这 种 清空 对 不 命中 率 的 影响 。 解 决 这 个 问题 的 一 种 办 法 是 在 
地 址 标识 中 增加 一 个 进程 标识 符 字 段 (PID) ,这 样 多 个 进程 的 数据 就 可 以 混合 存放 于 Cache 
中 ,由 PID 指出 Cache 中 的 各 块 是 属于 哪个 程序 的 。 为 了 减少 PID 的 位 数 ,PID 经 常 是 由 
操作 系统 指定 的 。 对 于 每 一 个 进程 ,操作 系统 从 循环 使 用 的 几 个 数字 中 指定 一 个 作为 其 
PID。 不 过 ,这 种 方法 有 时 也 需要 清空 Cache, 这 种 情况 仅 发 生 在 当 某 个 PID 被 重用 的 时 候 ， 
即 该 PID 以 前 已 被 分 配给 了 某 个 进程 , 现 又 把 它 分 配给 另 一 个 进程 的 时 候 。 

图 7.24 说 明了 采用 PID 所 带 来 的 不 命中 率 上 的 改进 。 它 给 出 了 在 以 下 三 种 情况 下 各 
种 大 小 的 虚拟 Cache 的 不 命中 率 : 没有 进程 切换 ( 单 进程 ) ,允许 进程 切换 并 使 用 进程 标识 
符 (PIDs) ,允许 进程 切换 但 不 使 用 进程 标识 符 (purge)。 从 图 中 可 看 出 ,和 单 进程 相 比 ， 
PIDs 的 绝对 不 命中 率 多 出 了 0.3% 一 0.6%; 而 和 purge 相 比 ,PIDs 的 绝对 不 命中 率 减 少 了 
0.6%~4.3%。 
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Cache 容 量 /B 
图 7.24 对 于 三 种 方式 , 虚 地 址 Cache 在 不 同 容量 下 的 不 命中 率 


虚拟 Cache 没有 流行 起 来 的 另 一 个 原因 ,是 操作 系统 和 用 户 程序 对 于 同一 个 物理 地 址 
可 能 采用 两 种 以 上 不 同形 式 的 虚拟 地 址 来 访问 ,这 些 地 址 称 为 同 义 (synonymy) 或 别名 
Calias) 。 它 们 可 能 会 导致 同一 个 数据 在 虚拟 Cache 中 存在 两 个 副本 。 而 这 是 不 允许 的 , 否 
则 就 会 发 生 错误 。 这 种 情况 在 物理 Cache 中 不 会 发 生 , 因 为 物理 Cache 首先 会 把 虚拟 地 址 
转换 到 同一 物理 地 址 ,从 而 找到 同一 个 物理 Cache 块 。 

用 软件 的 办 法 来 解决 别名 问题 很 容易 ,只 要 求 别名 的 某 些 地 址 位 相同 。 例 如 ,Sun 公司 
的 UNIX 要 求 所 有 别名 的 地 址 最 后 18 位 都 相同 。 这 种 限制 被 称 为 页 着 色 (Page Coloring ) 。 
这 一 限制 使 得 容量 不 超过 2* 字 节 (256KB) 的 直接 映像 Cache 不 可 能 出 现 一 个 Cache 块 有 
重复 物理 地 址 的 情况 。 所 有 别名 将 被 映像 到 同一 Cache 块 位 置 。 

对 于 虚拟 地 址 ,最 后 还 应 考虑 /O。1/O 通常 使 用 物理 地 址 ,所 以 为 了 与 虚拟 Cache 打 
交道 ,需要 把 物理 地 址 映像 为 虚拟 地 址 。 

3. 虚拟 索引 -物理 标识 方法 

这 种 方法 既 能 得 到 虚拟 Cache 的 好 处 ,又 能 得 到 物理 Cache 的 优点 。 它 直接 用 虚 地 址 
中 的 页 内 位 移 (页 内 位 移 在 " 虚 一 实 ? 地 址 的 转换 中 保持 不 变 ) 作 为 访问 Cache 的 索引 ,但 标 
识 却 是 物理 地 址 。CPU 发 出 访 存 请 求 后 ,在 进行 虚 一 实地 址 转换 的 同时 ,可 并 行进 行 标识 
的 读 取 。 在 完成 地 址 转换 之 后 ,再 把 得 到 的 物理 地 址 与 标识 进行 比较 。 

这 种 方法 的 局 限 性 是 直接 映像 Cache 的 容量 不 能 超过 页 面 的 大 小 。Alpha AXP 21064 
采用 了 这 种 方法 ,其 Cache 容量 为 8KB. 最 小 页 大 小 为 SKB, 所 以 可 以 直接 从 虚 地 址 的 页 内 
位 移 部 分 中 得 到 8 位 的 索引 ( 块 大 小 为 32 字 节 )。 

为 了 既 能 实现 大 容量 的 Cache, 又 能 使 索引 位 数 比较 少 , 以 便 能 直接 从 虚拟 地 址 的 页 内 
位 移 部 分 得 到 索引 ,可 以 采用 提高 相 联 度 的 办 法 。 这 一 点 可 以 从 下 面 的 公式 中 看 出 (其 中 
index 表示 索引 ) 。 

Cache 的 容量 = 2ex x 相 联 度 X 块 大 小 
下 面 举 一 个 极端 的 例子 一 一 IBM3033 的 Cache。 虽 然 研 究 结 果 已 经 表明 ,8 路 以 上 的 
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组 相 联 对 减少 不 命中 率 已 没有 多 大 好 处 ,但 IBM3033 的 Cache 仍 采用 了 16 路 组 相 联 ,其 主 
要 好 处 是 可 以 采用 更 大 的 Cache。 尽 管 IBM 系统 结构 限制 了 页 的 大 小 为 4KB, 但 16 路 组 
相 联 却 使 得 可 以 用 虚拟 索引 对 64KB(16X4KB) 的 Cache 进行 寻 址 。 图 7. 25 给 出 了 索引 和 
页 内 位 移 的 关系 。 页 大 小 为 4KB 意味 着 地 址 的 最 后 12 位 不 必 进 行 转换 ,因此 其 中 某 些 位 
可 以 用 作 访 问 Cache 的 索引 。 
J 设计 0 
页 地 址 页 内 位 移 
地 址 标识 索引 。 | 块 内 位 移 


图 7.25 IBM 3033 的 Cache 中 索引 字段 和 页 内 位 移 的 关系 


7.5.3 Cache 访问 流水 化 


这 种 技术 把 对 第 一 级 Cache 的 访问 按 流水 方式 组 织 ,这 样 一 来 ,就 使 得 访问 Cache 需要 
多 个 时 钟 周期 才 可 以 完成 。 例 如 Intel 的 Pentium 访问 指令 Cache 需要 一 个 时 钟 周期 ， 
Pentium Pro 到 Pentium 有朋 需 要 两 个 时 钟 周期 ,而 Pentium 4 则 需要 4 个 时 钟 周期 。 这 样 处 
理 的 好 处 是 可 以 提高 时 钟 频率 。 实 际 上 它 并 不 能 真正 减少 Cache 的 命中 时 间 , 但 可 以 提高 
访问 Cache 的 带宽 。 


7.5.4 踪迹 Cache 


开发 指令 级 并 行 性 所 遇 到 的 一 个 挑战 是 : 当 每 个 时 钟 周 期 流出 超过 4 条 指令 时 ,要 提 
供 足 够 多 条 彼此 互 不 相关 的 指令 是 很 困难 的 。 解决 这 个 问题 的 一 个 方法 是 采用 踪迹 
Cache。 普 通 的 指令 Cache 都 是 存放 静态 指令 序列 的 ,与 之 不 同 , 踪 迹 Cache 中 存放 的 是 
CPU 所 执行 过 的 动态 指令 序列 ,其 中 包含 了 由 分 支 预测 展开 了 的 指令 。 该 分 支 预测 是 否 正 
确 需 要 在 取 到 该 分 支 指令 时 进行 确认 。 

Intel 的 NetBurst 微 体系 结构 是 Pentium 4 及 其 后 续 型 号 处 理 器 的 基础 , 它 采用 了 踪迹 
Cache。 

踪迹 Cache 的 地 址 映像 机 制 比 普通 Cache 的 更 复杂 ,但 在 另 一 方面 , 它 能 够 提高 指令 
Cache 的 空间 利用 率 。 对 于 普通 Cache 中 的 一 个 块 来 说 .如果 通过 分 支 成 功 转 到 该 块 的 某 
个 位 置 开 始 执行 ,那么 该 块 中 处 于 该 位 置 之 前 的 部 分 就 可 能 根本 不 会 被 用 到 。 类 似 地 ,在 往 
后 执行 该 块 中 的 指令 时 ,也 可 能 因为 遇 到 成 功 的 分 支 而 从 该 块 中 转移 出 去 。 这 样 ,在 该 块 中 
位 于 该 分 支 指令 之 后 的 那些 指令 也 可 能 是 用 不 到 的 。 这 样 会 浪费 不 少 空 间 。 如 果 每 5 一 10 
条 指令 就 有 一 次 跳 转 或 成 功 分 支 ,那么 空间 的 浪费 确实 是 个 问题 。Trace Cache 中 则 只 存放 
上 述 从 转 入 位置 到 转 出 位 置 之 间 的 指令 ,从 而 避免 了 上 述 空 间 开 销 。 

当然 ,踪迹 Cache 也 有 它 的 不 足 ,就 是 相同 的 指令 序列 有 可 能 被 当 作 条 件 分 支 的 不 同 选 
择 而 重复 存放 。 


7.5.5 Cache 优化 技术 总 结 


7.3 一 7. 5 节 中 论述 的 减少 不 命中 率 、 不 命中 开销 和 命中 时 间 的 技术 通常 会 影响 平均 访 
存 时 间 公式 的 其 他 组 成 部 分 ,而 且 会 影响 存储 层次 的 复杂 性 。 表 7. 5 对 这 些 技术 做 了 个 总 
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结 , 并 估计 了 它们 对 复杂 度 的 影响 。 表 中 “十 ”号 表示 改进 了 相应 指标 ,“ 一 ”号 表示 使 该 指标 
变 差 ,而 空格 栏 则 表示 它 对 该 指标 无 影响 。 从 表 中 可 以 看 出 ,没有 什么 技术 能 同时 改进 两 项 
或 三 项 指标 。 表 中 关于 复杂 度 的 衡量 是 主观 上 的 判定 ,0 表示 最 容易 ,3 表示 最 复杂 。 

表 7.5 Cache 优化 技术 总 结 


不 命 | 不 命中 | 命中 | 硬件 复 
华人 二 本 中 率 | 开销 | 时间 | 杂 度 | 
实现 容易 ;Pentium 4 的 第 二 级 Cache 采用 了 
增加 块 大 小 十 | 
增加 Cache 容量 = l 被 广泛 采用 ,特别 是 第 二 级 Cache 
提高 相 联 度 地 = 1 被 广泛 采用 
“牺牲 ?Cache 十 2 | AMD Athlon 采用 了 8 个 项 的 “牺牲 ”Cache 
伪 相 联 Cache 寺 过 MIPS R10000 的 第 二 级 Cache 采用 
硬件 预 取 指令 和 数据 十 2 一 3 | 许多 机 器 预 取 指令 ,UltraSPARC 于 预 取 数据 
i 二 。 | 需 同时 采用 非 阻塞 Cache; 有 几 种 微 处 理 器 提 
红 汉 出 和 全 的 现职 3 。 | 供 了 对 这 种 预 取 的 支持 
用 编译 技术 减少 Cache| 。 | 向 软件 提出 了 新 要 求 ; 有 些 机 器 提供 了 编译 
不 命中 次 数 器 选项 
使 读 不 命中 优先 于 写 所 1 在 单 处 理 机 上 实现 容易 ,被 广泛 采用 
与 写 直 达 合 用 ,广泛 应 用 ,例如 Alpha AXP 
写 级 冲 归 并 本 1 | ?ll64,UluasPARC 四 
尽早 重启 动 和 关键 字 pe 
优先 + 芝 被 广泛 采用 
非 阻 塞 Cache 十 8 所 有 乱 序 执行 的 CPU 中 都 采用 
人 硬件 代价 大 ;两 级 Cache 的 块 大 小 不 同时 实 
es | 2 | 现 困难 ;被 广泛 采用 
小 而 简单 的 Cache 守 十 0 实现 容易 ,被 广泛 采用 
对 Cache 进行 索引 时 不 十 2 对 于 小 容量 Cache 来 说 实现 容易 ,已 被 Alpha 
必 进 行 地 址 转换 AXP 21164 和 UltraSPARC 机 采用 
流水 化 Cache 访问 1 被 广泛 采用 
踪迹 Cache 各 Pentium 4 采用 


7.6 ”并行 主 存 系统 


主 存 的 性 能 主要 用 延迟 和 带宽 来 衡量 。 以 往 ,Cache 主要 关心 的 是 主 存 的 延迟 ( 它 影响 
Cache 的 不 命中 开销 ) ,而 W/O 则 主要 关心 主 存 的 带宽 。 随 着 第 二 级 Cache 的 广泛 使 用 , 主 
存 带 宽 对 于 Cache 来 说 也 变 得 重要 了 ,这 是 因为 第 二 级 Cache 的 块 比 较 大 。 实 际 上 ,Cache 
可 以 通过 增加 Cahce 块 的 大 小 来 利用 主 存 带 宽 的 增加 ,因为 在 高 带宽 的 情况 下 , 块 大 小 增 大 
并 不 会 使 不 命中 开销 增加 多 少 。 

并 行 主 存 系统 是 在 一 个 访 存 周期 内 能 并 行 访问 多 个 存储 字 的 存储 器 . 它 能 有 效 地 提高 
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存储 器 的 带宽 。 

图 7. 26 是 一 个 普通 的 存储 器 ,这 是 一 个 单 体 单字 宽 的 存储 器 ,其 字 长 与 CPU 的 字 长 相 
同 。 每 一 次 只 能 访问 一 个 存储 字 。 假 设 该 存储 器 的 访问 周期 是 Tu, 字 长 为 W 位 , 则 其 带 
宽 为 


= 
Tw 
在 相同 的 器 件 条 件 ( 即 Tw 相同 ) 下 ,如 果 要 提高 主 存 的 带宽 ,就 可 以 采用 以 下 两 种 并 行 
存储 器 结构 : 单 体 多 字 存 储 器 ,多 体 交 又 存储 器 。 


By 


单字 长 寄存 器 
数据 寄存 器 于 位 


[ | 
地 址 寄存 器 地 址 寄存 器 
图 7. 26 单 体 单字 宽 存储 器 图 7.27 单 体 m 字 存储 器 (二 4) 


7.6.1 单 体 多 字 和 存储 器 


图 7.27 是 一 个 单 体 字 (这 里 m= 二 4) 存 储 器 的 示意 图 。 该 存储 器 能 够 每 个 存储 周期 
读 出 mm 个 CPU 字 。 因 此 其 最 大 带宽 提高 到 原来 的 m 售 。 


一 WwW 
Buy=mx Tw 


当然 ,由 于 程序 执行 过 程 中 所 访问 的 指令 和 数据 具有 一 定 的 随机 性 ,因此 一 次 读 出 的 
个 指令 字 或 数据 字 中 可 能 有 些 是 当前 无 用 的 。 所 以 单 体 多 字 存 储 器 的 实际 带宽 比 最 大 带 
宽 小 。 

单 体 多 字 并 行 存储 器 的 优点 是 实现 简单 ,缺点 是 访 存 效率 不 高 ,其 原因 包括 以 下 4 个 
方面 。 

(1) 单 体 多 字 并 行 存储 器 一 次 能 读 取 m 个 指令 字 。 如 果 这 些 指 令 字 中 有 分 支 指令 ,而 
且 分 支 成 功 ,那么 该 分 支 指令 之 后 的 指令 就 是 无 用 的 。 

(2) 单 体 多 字 并 行 存储 器 一 次 取出 的 wm 个 数据 不 一 定 都 是 有 用 的 ,而 另 一 方面 ,当前 执 
行 指令 所 需要 的 多 个 操作 数 也 不 一 定 正好 都 存放 在 同一 个 长 存储 字 中 。 由 于 数据 存放 的 随 
机 性 比 程序 指令 存放 的 随机 性 大 ,所 以 发 生 这 种 情况 的 概率 较 大 。 

(3) 在 这 种 存储 器 中 ,必须 竣 齐 了 m 个 数 之 后 才能 一 起 写 信 存储器。 如 果 只 写 个 别 字 ， 
就 必须 先 把 相应 的 长 存储 字 读 出 来 , 放 到 数据 寄存 器 中 ,然后 在 地 址 码 的 控制 下 修改 其 中 的 
一 个 字 , 最 后 再 把 长 存储 字 写 回 存储 器 。 
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(4) 当 要 读 出 的 数据 字 和 要 写 和 人 的 数据 字 处 于 同一 个 长 存储 字 内 时 , 读 和 写 的 操作 就 第 


无 法 在 同一 个 存储 周期 内 完成 了 。 
7.6.2 多 体 交 又 存储 器 


多 体 交 又 存 储 器 由 多 个 单字 存储 体 构成 ,如 图 7. 28 所 示 。 每 个 体 都 有 自己 的 地 址 寄存 
存 器 以 及 地 址 译 码 和 读 / 写 驱动 等 电路 。 假 设 共 有 m 个 体 ,每 一 个 体 有 nn 个 存储 单元 。 这 
nXm 个 单元 可 以 看 成 一 个 由 存储 单元 构成 的 二 维和 矩阵 。 但 是 ,对 于 计算 机 使 用 者 来 说 , 存 
储 器 是 按 顺 序 线性 编 址 的 。 如 何在 二 维和 矩阵 和 线性 地 址 之 间 建 立 对 应 关系 ? 这 就 是 如 何 对 
多 体 存 储 器 进行 编 址 的 问题 。 

有 两 种 编 址 方法 : 高 位 交叉 编 址 ,低位 交叉 编 址 。 其 中 只 有 低位 交叉 编 址 存储 器 才能 
有 效 地 解决 访问 冲突 问题 。 下 面 着 重 介绍 这 种 存储 器 。 但 由 于 高 位 交叉 编 址 目前 使 用 也 很 
普遍 ,能 很 方便 地 扩展 常规 存储 器 的 容量 ,所 以 对 它 也 做 简单 介绍 。 


TT Lo 


总 线 控制 上 -, 


章 


地 址 寄存 器 地 址 寄存 器 | 地 址 寄存 器 ,| ”| 地 址 寄存 器 


| | | | 


主 存 控制 部 件 上 


图 7.28 多 体 (m 一 4) 交 叉 存 储 器 


1. 高 位 交叉 编 址 

这 种 方式 相当 于 对 存储 单元 矩阵 按 列 优先 的 方式 进行 编 址 ,如 图 7. 29 所 示 。 即 先 给 第 
0 列 的 各 单元 按 从 上 到 下 的 顺序 依次 赋予 地 址 ,然后 再 给 第 1 列 的 各 单元 按 顺 序 依次 赋予 
地 灶 y ,最 后 给 最 后 一 列 的 各 单元 按 顺 序 依次 赋予 地 址 。 可 以 看 出 ,同一 个 体 中 的 高 
logzm 位 都 是 相同 的 ,这 就 是 体 号 。 


0..0F..F 0..1F.F F.FF..F 
存储 体 0 存储 体 1 存储 体 m-1 


图 7.29 高 位 交叉 编 址 
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考虑 处 于 第 i 行 第 j 列 的 单元 , 即 体 号 为 j、 体 内 地 址 为 i 的 单元 ,其 线性 地 址 可 按 下 式 
求 得 。 
A=jXn+i (其 中 j=0,1,2y5m 一 ly i= 二 0,1525 6n 一 1) 
反 过 来 ,如 果 已 经 知道 一 个 单元 的 线性 地 址 为 A, 则 其 体 号 } 和 体内 地 址 i 可 按 以 下 公 
式 求 得 。 


A 

j =| 全 | 线性 地 址 4 [ 体 号 体内 地 址 |] 
a 

i=A modn log>m 位 


如 果 把 A 表示 为 二 进 制 数 , 则 其 高 logsm 位 就 是 图 7.30 高 位 交叉 编 址 的 线性 地 址 
体 号 ,而 剩 下 的 部 分 就 是 体内 地 址 ,如 图 7. 30 所 示 。 

2. 低位 交叉 编 址 

低位 交叉 编 址 方式 相当 于 对 存储 单元 矩阵 按 行 优先 进行 编 址 ,如 图 7. 31 所 示 。 即 先 给 
第 0 行 的 各 单元 按 从 左 到 右 的 顺序 依次 赋予 地 址 ,然后 再 给 第 1 行 的 各 单元 按 顺 序 依 次 赋 


生地 下 yr ,最 后 给 最 后 一 行 的 各 单元 按 顺序 依次 赋予 地 址 。 可 以 看 出 ,同一 个 体 中 的 低 
logzm 位 都 是 相同 的 ,这 就 是 体 号 。 
0.00.0 0.00..1 0..0F.F 
0.10.0 0.10.1 0.1F.F 
F..F0..0 F.F0.1 FFF.F 
存储 体 0 存储 体 1 存储 体 m-1 


图 7.31 低位 交叉 编 址 


考虑 处 于 第 i 行 第 j 列 的 单元 , 即 体 号 为 j、 体 内 地 址 为 i 的 单元 ,其 线性 地 址 可 按 下 式 
求 得 。 
A=iXm 十 ; (其 中 i=0,1,2,…,n 一 1; j= 二 0,1,2,*…,m 一 1) 
反 过 来 ,如 果 已 经 知道 一 个 单元 的 线性 地 址 为 A, 则 其 体 号 7 和 体内 地 址 i 可 按 以 下 公 
式 求 得 。 
:sls | 


jj 三 A modm 
如 果 把 A 表示 为 二 进 制 数 , 则 其 低 logzm 位 就 是 体 号 ,而 剩 下 的 部 分 就 是 体内 地 址 ,如 
图 7. 32 所 示 。 


[你 图 7. 33 是 一 个 采用 低位 交叉 编 址 的 存储 器 
二 的 例子 。 这 是 一 个 由 8 个 存储 体 构成 .总 容量 为 
ogzm 位 er 

图 7.32 ”低位 交叉 编 址 的 线性 地 址 ys i 

为 了 提高 主 存 的 带宽 ,需要 多 个 或 所 有 存储 体能 并 行 工 作 。 由 于 在 程序 执行 过 程 中 ， 

CPU 所 访问 的 指令 和 数据 的 地 址 是 按 顺序 连续 的 ,所 以 必须 采用 低位 交叉 访问 的 存储 器 ， 

并 在 每 一 个 存储 周期 内 ,分 时 启动 m 个 存储 体 ,如 图 7. 34 所 示 。 


线性 地 址 4 体内 地 址 
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数据 寄存 器 
NE RE EE | 
0 , 2 3 4 5 6 7 
8 9 10 | 1 12 13 | 14 | 1 
Fr 16 | 17 | 18 I9|20|2|2 | 23 


体内 地 址 (3 位 ) 体 号 (3 位 ) 
地 址 寄存 器 (线性 地 址 ) 
图 7.33 采用 低位 交叉 编 址 的 存储 器 (8 个 存储 体 ) 


主 存 周期 主 存 周期 


图 7.34 低位 交叉 编 址 主 存 的 分 时 启动 


如 果 每 个 存储 体 的 访问 周期 是 Ty , 则 各 存储 体 的 启动 间隔 为 t= Ty/m。 

采用 低位 交叉 访问 方式 能 大 幅度 地 提高 主 存储 器 的 带宽 ,目前 这 种 存储 器 已 经 在 高 性 
能 的 单 处 理 机 和 多 处 理 机 中 得 到 了 广泛 应 用 。 

虽然 在 理想 情况 下 ,这 种 存储 器 的 带宽 最 高 能 提高 到 原来 的 mm 售 。 增 加 xm 的 值 就 能 够 
提高 主 存储 器 的 带宽 。 但 是 ,由 于 存在 访问 冲突 ,实际 加 速 比 小 于 mx。 下 面 通过 一 个 模型 来 
分 析 并 行 主 存 系统 的 实际 带宽 。 

考虑 一 个 由 mm 个 独立 分 体 组 成 的 主 存 系统 , 设 CPU 发 出 的 一 串 地 址 为 Ai., As,…,A。 
的 访 存 申 请 队列 。 存 储 控制 器 扫描 这 个 队列 ,并 截取 从 头 起 的 Ai ,A;:,… ,A 序列 作为 申请 
序列 。 这 个 申请 序列 是 满足 以 下 条 件 的 最 长 序列 :& 个 地 址 所 访问 的 存储 器 单元 都 处 在 不 
同 的 分 体 中 。 申 请 序列 A; 一 Ax 不 一 定 是 顺序 地 址 ,只 要 它们 之 间 不 出 现 分 体 冲 突 。 显 然 ， 
kk 是 一 个 随机 变量 ,其 最 大 值 为 m, 但 由 于 会 发 生 分 体 冲 突 , 所 以 其 值 往往 小 于 mx。 截取 的 
这 个 长 度 为 & 的 申请 序列 可 以 同时 访问 & 个 分 体 。k 越 接 近 于 ,系统 的 效率 就 越 高 。 

设 P(k) 表 示 申 请 序列 长 度 为 的 概率 ,其 中 ==1.2,…,m。 用 B 表示 k 的 平均 值 , 则 


~ 
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B= Dk. Pk) (7.4) 


它 实际 上 就 是 每 个 主 存 周期 所 能 访问 到 的 字数 的 平均 值 ,正比 于 主 存 实 际 带宽 。 

P(k) 与 具体 程序 的 运行 状况 密切 相关 。 如 果 访 存 申请 队列 都 是 指令 的 话 ,那么 影响 最 
大 的 就 是 转移 概率 4, 它 是 给 定 指令 的 下 条 指令 地 址 为 非 顺 序 地 址 的 概率 。 程 序 中 的 指令 
一 般 是 顺序 执行 的 ,但 如 果 遇 到 转移 成 功 的 指令 , 则 申请 序列 中 在 该 转移 指令 之 后 的 指令 都 
是 没 用 的 。 

(1) 当 k 二 1 时 ,所 表示 的 情况 是 : 第 一 条 就 是 转移 指令 且 转 移 成 功 。 

P(1) 一 人 一 (1 一 1)"。A 

(2) 当 & 一 2 时 ,所 表示 的 情况 是 : 第 一 条 指令 没有 转移 (其 概率 为 1 一 1) ,第 二 条 是 转 

移 指令 且 转 移 成 功 ,所 以 有 


P(2) = (1 一 1)1。A 

(3) 同 理 ,P(3) 王 (1 一 1)2。)。 

(4) 以 此 类 推 ,P(A) 王 (1 一人) 和: 。), 其 中 1 过 4 一 mm。 

(5) 如 果 前 m 一 1 条 指令 均 不 转移 , 则 不 管 第 mm 条 指令 是 否 转移 ,k 都 等 于 m, 因 此 有 
Plm) 一 (] 一 人)”! 


代入 式 (7.4) ,得 
B= >)A.P() 一 1.1 十 2。(1 一 1) .1 十 3。(1 一 1)2 .A 
k=1 


Fm— D(Atm(l XD" 
用 数学 归纳 法 化 简 后 ,可 得 


B= Sa 一 人 ) 
它 是 一 个 等 比 级 数 ,因此 
B=1— (7.5) 


若 每 条 指令 都 是 转移 指令 且 转 移 成 功 (4= 二 1), 则 
B=1, 就 是 说 使 用 并 行 多 体 交 叉 存 取 的 实际 带宽 低 到 和 
使 用 单 体 单字 的 一 样 ;车 所 有 指令 都 不 转移 (4 二 0). 则 
B=m, 即 此 时 使 用 多 体 交 叉 存 取 的 效率 最 高 。 

当 m 等 于 4、8、16 时 ,B 与 4 的 关系 曲线 如 图 7. 35 
所 示 。 从 图 中 可 以 看 出 , 当 转 移 概率 4 二 0. 3 时 ,mm 等 于 
4.、8、16 情况 下 的 B 差别 不 大 。 也 就 是 说 ,此 时 m 取 值 
再 大 ,也 不 会 带 来 多 大 的 好 处 。 而 在 4 二 0. 1 时 .m 值 的 
大 小 对 B 的 改进 会 有 显著 影响 。 

对 于 数据 来 说 ,由 于 其 顺序 性 差 ,m 值 的 增 大 给 B 0 一 0 一 065 一 05 一 10 
带 来 的 好 处 就 更 差 一 些 。 若 机 器 主要 是 运行 标量 运算 转移 概率 和 
的 程序 , 则 一 般 取 m 壹 8, 很 少 采用 mm 二 16 的 。 但 如 果 是 。 图 7.35 mw 为 4.8.16 时 B 与 
向 量 处 理 机 ,由 于 数据 的 顺序 性 好 ,加 上 向 量 指令 的 使 4 的 关系 曲线 


8( 字 数 / 主 存 周期 ) 
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用 大 大 减少 了 循环 的 次 数 , 也 就 减少 了 转移 指令 的 概率 ,所 以 其 m 值 可 以 取 大 些 。 
正 是 因为 程序 的 转移 概率 不 会 很 低 , 数 据 分 布 的 离散 性 较 大 ,所 以 单纯 靠 增 大 m 来 提 
高 并 行 主 存 系统 的 带宽 是 有 限 的 ,而 且 性 能 价格 比 还 会 随 mm 的 增 大 而 下 降 。 


7.6.3 避免 存储 体 冲 突 


在 许多 情况 下 ,都 要 求 存储 系统 能 支持 多 个 独立 的 访 存 请 求 , 例 如 : 不 命中 下 的 不 命 
中 ,能 从 多 个 不 连续 的 地 址 读数 据 ( 收 集 ) 或 向 多 个 不 连续 的 地 址 写 数据 (散播 ) 的 DMA 方 
式 I/O, 多 处 理 机 或 向 量 计算 机 。 这 时 存储 器 系统 的 性 能 将 取决 于 这 些 独立 的 访 存 请 求 发 
生体 冲突 的 频 度 的 高 低 。 所 谓 体 冲突 ,是 指 两 个 访问 请 求 要 访问 同一 个 存储 体 。 在 传统 的 
多 体 交 又 结 构 中 ,顺序 访问 被 处 理 得 很 好 ,不 会 发 生体 冲突 。 地 址 相差 奇数 值 的 访 存 也 是 如 
此 。 问 题 是 当地 址 相差 偶数 值 时 ,冲突 的 频 度 就 增加 了 。 解 决 这 个 问题 的 一 种 方法 ,是 采用 
多 体 去 减少 体 冲突 的 次 数 。 这 种 方法 只 有 在 较 大 规模 的 机 器 中 才 采 用 ,例如 ,NEC SX/3 最 
多 可 使 用 128 个 体 。 

这 种 方法 存在 问题 。 这 是 因为 对 存储 器 中 数据 的 访问 不 是 随机 的 ,无 论 有 多 少 个 体 , 多 
个 访问 都 有 可 能 去 访问 同一 个 体 。 假 设 有 128 个 存储 体 , 按 字 交 叉 方式 工作 ,并 执行 以 下 
程序 。 


int x [256] [512]; 
for (=0;j< 512;j= 计 ) 
for (i=0;i< 256;i=i+1) 
x [i]G]=2* x (iG]; 

因为 512 是 128 的 整数 倍 , 同 一列 中 的 所 有 元 素 都 在 同一 个 体内 ,无 论 CPU 或 存储 系 
统 多 么 高 级 ,该 程序 都 会 因数 据 Cache 不 命中 而 暂停 。 

体 冲 突 问题 既 可 以 用 软件 方法 也 可 以 用 硬件 方法 来 解决 。 编 译 器 可 以 通过 循环 交换 优 
化 来 避免 对 同一 个 体 的 访问 。 更 简单 的 一 种 方法 是 让 程序 员 或 编译 器 来 扩展 数组 的 大 小 ， 
使 之 不 是 2 的 宕 ,从 而 强制 使 上 述 地 址 落 在 不 同 的 体内 。 

在 介绍 硬件 解决 方法 之 前 , 先 来 回顾 一 下 存储 体 是 如 何 寻 址 的 。 对 于 给 定 的 一 个 地 址 
A, 有 

体 号 7 =A mod m 


体内 地 址 ; 一 | 全 | 

其 中 为 体 数 。 

为 能 快速 实现 上 述 计算 ,传统 存储 系统 的 体 数 mx 和 每 个 体 的 容量 都 取 为 2 的 寡 。 

减少 体 冲 突 的 一 种 硬件 解决 方案 是 使 体 数 为 素数 。 采 用 素数 看 起 来 似乎 会 需要 更 多 的 
硬件 来 完成 复杂 的 计算 ,如 上 述 的 取 模 和 除法 运算 。 而 且 这 些 复杂 的 计算 会 延长 每 次 访 存 
的 时 间 。 

幸运 的 是 ,有 几 种 硬件 方法 能 快速 地 进行 上 述 计 算 , 尤 其 是 当 存 储 体 数 为 素数 、 且 为 2 
的 寡 减 1 时 ,可 以 用 下 面 的 计算 来 代替 除法 运算 。 

体内 地 址 i 二 A mod nn 

由 于 一 个 存储 体 中 包含 的 字数 一 般 是 2 的 老 , 所 以 可 以 用 位 选择 方法 来 实现 上 述 计算 。 


SU 
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这 种 方法 的 正确 性 可 以 用 中 国 余数 定理 来 证 明 , 详 略 。 

表 7.6 列 出 了 三 个 存储 模块 的 情况 。 每 个 模块 为 8 个 字 。 表 中 列 出 了 用 两 种 不 同方 法 
进行 地 址 映像 的 结果 : 左边 用 的 是 传统 的 顺序 交叉 地 址 映像 ,右边 用 的 是 修改 后 的 新 方法 。 
当 寻 址 一 个 字 时 ,在 前 一 种 方法 中 需 进 行 除法 运算 ,而 在 后 一 种 方法 中 只 需 对 2 的 短 进 行 取 
模 运 算 。 

表 7.6 顺序 交叉 和 取 模 交叉 的 地 址 映像 举例 


存 储 体 
体内 地 址 顺序 交叉 取 模 交叉 

0 1 4 0 1 2 

0 0 | 2 0 16 8 
1 3 4 5 9 1 17 
2 6 党 8 18 10 2 
3 9 10 11 3 19 11 
4 12 13 14 12 4 20 
和 15 16 17 21 13 5 
6 18 19 20 6 22 14 
了 21 22 23 15 学 23 


7.7 虚拟 存储 器 


7.7.1 基本 概念 


早 在 1961 年 ,英国 曼彻斯特 大 学 的 Kilburn 等 人 就 已 提出 了 虚拟 存储 器 的 概念 。 经 过 
20 世纪 60 年 代 初 到 70 年 代 初 的 发 展 和 完善 ,虚拟 存储 器 已 广泛 应 用 于 大 中 型 计算 机 系 
统 。 目 前 几乎 所 有 的 计算 机 都 采用 了 虚拟 存储 系统 。 

虚拟 存储 器 是 “ 主 存 - 辅 存 ” 层 次 进一步 发 展 的 结果 。 它 由 价格 较 贵 .速度 较 快 .容量 较 
小 的 主 存储 器 和 一 个 价格 低廉 .速度 较 慢 容量 很 大 的 辅助 存储 器 (通常 是 硬盘 ) 组 成 ,在 系 
统 软件 和 辅助 硬件 的 管理 下 ,就 像 一 个 单一 的 .可 直接 访问 的 大 容量 主 存储 器 。 程 序 员 可 以 
用 机 器 指令 的 地 址 码 对 整个 程序 统一 编 址 ,就 如 同 应 用 程序 具有 对 应 于 这 个 地 址 码 宽 度 的 
存储 空间 ( 称 为 程序 空间 ) 一 样 ,而 不 必 考虑 实际 主 存 空间 的 大 小 。 

虚拟 存储 器 可 以 分 为 两 类 : 页 式 和 段 式 。 页 式 虚拟 存储 器 把 空间 划分 为 大 小 相同 的 
块 , 称 为 页 面 。 而 段 式 虚拟 存储 器 则 把 空间 划分 为 可 变 长 的 块 , 称 为 段 。 页 面 是 对 空间 的 机 
械 划 分 ,而 段 则 往往 是 按 程序 的 逻辑 意义 进行 划分 的 。 

页 式 和 段 式 虚 拟 存储 器 各 有 优 缺 点 ,操作 系统 教材 中 有 详细 的 论述 。 由 于 在 段 式 中 实 
现 替换 很 复杂 ,现代 计算 机 中 几乎 不 采用 纯 段 式 。 许多 计算 机 采用 段 式 和 页 式 的 组 合 一 一 
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段 页 式 。 段 页 式 兼 有 两 者 的 优点 。 在 段 页 式 中 ,每 段 被 划分 成 若干 个 页 面 。 这 样 既 保持 了 
段 作为 逻辑 单位 的 优点 ,又 简化 了 替换 的 实现 ,而 且 段 不 必 作 为 整体 全 部 一 次 调 入 主 存 , 而 


是 可 以 以 页 面 为 单位 部 分 调 入 。 
表 7.7 对 Cache 和 虚拟 存储 器 的 参数 取 值 范围 做 了 简单 的 比较 。 
表 7.7 Cache 和 虚拟 存储 器 的 参数 取 值 范围 


参 数 第 一 级 Cache 虚拟 存储 器 
块 (页 ) 大 小 | 16 一 128 字 节 4096 一 65 536 字 节 
命中 时 间 “| 1 一 3 个 时 钟 周期 100 一 200 个 时 钟 周期 
不 命中 开销 | 8 一 200 个 时 钟 周 期 1 000 000 一 10 000 000 个 时 钟 周期 
(访问 时 间 ) | (6 一 160 个 时 钟 周期 ) (800 000 一 8 000 000 个 时 钟 周期 ) 
(传输 时 间 ) | (2 一 40 个 时 钟 周期 ) (200 000 一 2 000 000 个 时 钟 周期 ) 
不 命中 率 | 0.1%~10% 0.00001%~0.001% 
地 址 映像 25 一 45 位 物理 地 址 到 14 一 20 位 Cache 地 址 | 32 一 64 位 虚拟 地 址 到 25 一 45 位 物理 地 址 


7.7.2 快速 地 址 转换 技术 


页 表 一 般 都 很 大 ,是 存放 在 主 存 中 的 。 有 时 页 表 本 身 也 是 按 页 存储 的 。 这 样 ,每 次 访 存 
都 要 引起 对 主 存 的 两 次 访问 : 第 一 次 是 访问 页 表 , 以 获得 所 要 访问 数据 的 物理 地 址 ;第 二 次 
才 是 访问 数据 本 身 。 显 然 , 这 使 得 对 存储 器 的 访问 速度 至 少 下 降 了 一 倍 ,是 无 法 实用 的 。 一 
般 采 用 TLB 来 解决 这 个 问题 。 

TLB(Translation Look-aside Buffer) 是 一 个 专用 的 高 速 缓冲 器 ,用 于 存放 近期 经 常 使 
用 的 页 表 项 (Page Table Entry,PTE) 。 根 据 程序 的 局 部 性 原理 ,CPU 在 近期 访问 的 指令 和 
数据 是 相对 簇 聚 的 ,因而 它 所 用 的 页 表 项 也 是 簇 聚 的 。 这 样 ,大 多 数 访 存 都 可 以 通过 TLB 
快速 地 完成 虚 习 实地 址 转换 。 只 有 偶尔 在 TLB 不 命中 时 , 才 需 要 去 访问 主 存 中 的 页 表 。 

TLB 中 的 项 由 两 部 分 构成 : 标识 和 数据 。 标 识 中 存放 的 是 虚 地 址 的 一 部 分 ,而 数据 部 
分 中 存放 的 则 是 物理 页 帧 号 有 效 位 、 存 储 保护 信息 、 使 用 位 、 修 改 位 等 。 为 了 使 TLB 中 的 
内 容 与 页 表 保 持 一 致 , 当 修改 页 表 中 的 某 一 项 时 ,操作 系统 必须 保证 TLB 中 没有 该 页 表 项 
的 副本 。 这 可 以 通过 作废 TLB 中 的 页 表 项 来 实现 。 

图 7.36 是 AMD Opteron 的 数据 TLB 的 组 织 结构 。 该 TLB 共 包含 40 个 项 ,采用 全 相 
联 映像 。 其 中 各 字段 的 含义 见 7.7.3 小 节 。 

图 中 的 中 .@ .@ .由 等 表示 进行 地 址 转换 的 步 又。 进行 地 址 转换 时 ,把 虚拟 地 址 送 往 各 
个 标识 ,同时 进行 比较 (图 中 的 中 和 加)。 显 然 , 只 有 有 效 位 为 "1 的 标识 才 有 可 能 匹配 。 与 
此 同时 ,根据 TLB 中 的 存储 保护 信息 对 本 次 访 存 的 类 型 进行 检查 ,看 是 否 越权 。 

车 存在 匹配 的 标识 , 则 多 路 选择 器 把 相应 TLB 项 中 的 物理 地 址 选 出 (@@)。 该 地 址 与 页 
内 位 移 拼接 成 完整 的 40 位 物理 地 址 (@)。 

地 址 转换 很 容易 处 在 确定 处 理 器 时 钟 周 期 的 关键 路 径 上 .因为 即使 是 采用 最 简单 的 
Cache, 也 需要 读 取 TLB 中 的 值 并 对 其 进行 比较 。 所 以 ,一般 TLB 比 Cache 的 标识 存储 器 
更 小 ,而 且 更 快 ,这 样 才能 保证 TLB 的 读 出 操作 不 会 使 Cache 的 命中 时 间 延 长 。 
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图 7.36 AMD Opteron 的 地 址 转换 过 程 


7.7.3 页 式 虚 拟 存 储 器 实例 : 64 位 Opteron 的 存储 管理 


Opteron 的 页 面 大 小 为 4KB,2MB 和 4MB。 

在 AMD64 系统 结构 中 ,虚拟 地 址 和 物理 地 址 分 别 是 64 位 和 52 位 。 进 行 虚 一 实地 址 
转换 时 ,是 把 64 位 的 虚拟 地 址 映射 到 52 位 的 物理 地 址 。 当 然 , 具 体 实 现时 可 以 采用 更 少 的 
位 数 来 简化 硬件 。 例 如 Opteron 使 用 了 48 位 虚拟 地 址 和 40 位 物理 地 址 。AMD64 要 求 64 
位 虚拟 地 址 中 的 高 16 位 是 由 低 48 位 进行 符号 位 扩展 而 来 的 ,这 称 为 规范 格式 。 

64 位 地 址 空间 的 页 表 实 在 是 太 大 了 。 因 此 ,AMD64 采用 多 级 分 层 页 表 结 构 来 映射 地 
址 空间 ,以 使 页 表 大 小 合适 。 分 级 的 级 数 取决 于 虚拟 地 址 空间 的 大 小 。 图 7. 37 给 出 了 
Opteron 48 位 虚拟 地 址 的 4 级 转换 。 

每 个 分 级 页 表 的 偏 移 量 分 别 来 自 4 个 9 位 的 字段 。 开 始 地 址 转换 时 ,首先 是 在 第 4 级 
基 址 寄存 器 上 加 上 第 一 个 偏 移 量 ,然后 按照 所 得 到 的 地 址 从 存储 器 中 读 出 下 一 级 (第 3 级 ) 
页 表 的 基 址 。 再 把 下 一 级 偏 移 量 加 到 新 的 基 址 上 ,并 再 次 访 存 , 得 到 第 2 级 页 表 的 基 址 。 如 
此 反复 进行 ,直到 获得 最 后 一 个 页 表 的 基 址 ,然后 用 此 基 址 和 最 后 一 个 偏 移 量 相 加 ,并 用 得 
到 的 地 址 访问 存储 器 , 便 可 得 到 物理 页 号 。 把 此 页 号 与 12 位 页 内 位 移 拼接 , 便 得 到 完整 的 
物理 地 址 。 注 意 ,Opteron 中 的 页 表 大 小 不 超过 4KB。 

Opteron 的 每 一 级 页 表 都 采用 64 位 的 项 。 其 中 前 12 位 留 给 将 来 使 用 ,随后 的 52 位 是 
物理 页 号 ,其 中 最 后 的 12 位 包括 保护 和 使 用 信息 。 虽 然 最 后 这 12 位 在 不 同 级 的 页 表 中 都 
有 所 不 同 , 但 大 都 包含 以 下 基本 字段 。 

。 存在 位 : 说 明 该 页 面 在 存储 器 中 。 

。 读 / 写 位 : 说 明 该 页 面 是 只 读 还 是 可 读 写 。 

。 用 户 /管理 位 : 说 明 用 户 是 否 能 访问 此 页 或 只 能 由 上 面 的 三 个 特权 级 所 访问 。 
修改 位 : 说 明 该 页 面 已 被 修改 过 。 
访问 位 : 说 明 自 上 次 该 位 被 清 零 后 到 现在 ,该 页 面 是 否 被 读 或 写 过 。 

页 面 大 小 : 说 明 最 后 一 级 页 面 是 4KB 还 是 4MB; 如 果 是 4MB, 则 Opteron 仅 使 用 三 
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图 7.37 Opteron 48 位 虚拟 地 址 的 4 级 转换 


级 页 表 而 非 四 级 。 

。 非 执行 位 : 在 有 些 页 面 中 用 来 阻止 代码 的 执行 。 

。 页 级 Cache 使 能 : 说 明 该 页 面 能 否 进入 Cache。 

。 页 级 写 直 达 : 说 明 该 页 是 允许 对 数据 Cache 进行 写 回 还 是 写 直 达 。 

由 于 Opteron 通常 在 TLB 不 命中 时 要 遍历 所 有 四 级 页 表 , 故 有 三 个 位 置 可 以 进行 保护 
限制 的 检查 。Opteron 仅 遵 从 底层 的 PTE., 而 在 其 他 级 上 只 需 确认 有 效 位 是 有 效 的 即 可 。 

由 于 PTE 的 长 度 为 8 个 字 节 ,每 个 页 表 有 512 项 PTE,Opteron 有 4KB 大 小 的 页 面 ,所 以 
页 表 正 好 是 一 页 长 。 每 级 的 字段 都 是 9 位 ,页 内 位 移 为 12 位 。 按 照 这 种 方案 , 虚 地 址 中 还 有 
64 一 (4X9 十 12) 一 16 位 未 用 ,这 16 位 要 按 符号 位 扩展 来 填充 ,以 确保 地 址 的 规范 化 。 

在 保护 方面 ,如 何 避 免 用 户 进行 非法 的 地 址 转换 ? 页 表 本 身 已 经 被 保护 ,用 户 程序 无 法 
对 它们 进行 写 操作 。 因 此 ,用 户 可 以 使 用 任何 的 虚拟 地 址 。 但 是 ,操作 系统 能 够 通过 控制 页 
表 项 来 控制 哪些 物理 地 址 可 以 被 访问 .哪些 不 能 访问 。 多 个 进程 共享 存储 器 是 通过 使 各 自 
的 地 址 空间 中 的 一 个 页 表 项 指向 同一 个 物理 页 面 来 实现 的 。 

Opteron 使 用 4 个 TLB 以 减少 地 址 转换 时 间 ,两 个 用 于 访问 指令 , 另 两 个 用 于 访问 数 
据 。 和 多 级 Cache 类 似 ,Opteron 通过 采用 两 个 更 大 的 第 二 级 TLB 来 减少 TLB 不 命中 : 一 
个 用 于 访问 指令 , 另 一 个 用 于 访问 数据 。 表 7. 8 给 出 了 每 个 TLB 的 关键 参数 。 


表 7.8 Opteron 中 第 一 级 和 第 二 级 指令 .数据 TLB 的 参数 
参 数 描 述 
块 大 小 1 个 PTE(8 字 节 ) 
L1 命中 时 间 1 个 时 钟 周期 
L2 命中 时 间 7 个 时 钟 周期 
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续 表 
参数 描 述 
L1 TLB 大 小 指令 和 数据 TLB 都 是 40 个 PTE, 其 中 32 个 用 于 4KB 大 小 的 页 面 ,8 个 用 于 2MB 或 
4MB 页 面 
L2 TLB 大 小 ”| 指令 和 数据 TLB 都 是 512 个 PTE, 用 于 4KB 页 面 
块 选择 LRU 
L1 映像 规则 全 相 联 
L2 映像 规则 4 路 组 相 联 


7.8 实例: AMD Opteron 的 存储 器 层次 结构 


作为 实例 ,本 节 介 绍 AMD Opteron 的 存储 器 层次 结构 。Opteron 是 一 个 乱 序 执行 处 理 
器 , 它 每 个 时 钟 周 期 最 多 可 以 取出 三 条 80x86 指令 ,并 将 之 转换 成 类 RISC 操作 ,然后 以 每 
个 时 钟 周期 三 个 操作 的 速率 流出 。Opteron 有 11 个 并 行 的 执行 部 件 。 在 2006 年 ,其 12 级 
定点 流水 线 使 得 该 处 理 器 的 最 高 时 钟 频率 达到 了 2. 8GHz。Opteron 采用 的 虚 地 址 是 48 


位 ,物理 地 址 是 40 位 的 。 


图 7.38 给 出 了 Opteron 中 通过 两 级 TLB 实现 的 从 虚拟 地 址 到 物理 地 址 的 转换 以 及 对 
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L2 标 识 比较 地 址 <24> | L2 Cache 索 引 <10> | 块 内 位 移 <6> 
至 CPU 


ee 
| L2 Cache 标 识 <24> 


L2 数 据 <512> 


-G- 一 一 


一 一 
至 L1 Cache 或 CPU 


图 7.38 AMD Opteron 的 两 级 TLB 和 两 级 Cache 的 层次 结构 


存储 系统 


两 级 数据 Cache 的 访问 情况 。 其 中 Cache、TLB、 虚 拟 存储 器 的 关系 是 具有 典型 意义 的 ,不 
少 处 理 器 都 采用 了 类 似 的 方案 。 这 里 采用 了 虚拟 索引 、 物 理 标识 的 Cache。 在 虚拟 地 址 到 
物理 地 址 的 转换 中 ,虚拟 地 址 中 的 页 内 位 移 是 不 变 的 。 所 以 可 以 直接 用 它 的 一 部 分 作为 索 
引 去 访问 Cache。 在 这 个 过 程 中 .同时 进行 虚拟 地 址 到 物理 地 址 的 转换 ,以 便当 Cache 中 的 
标识 读 出 来 后 ,可 以 用 物理 地 址 进行 比较 。 

由 于 指令 Cache 与 数据 Cache 的 结构 类 似 , 图 中 就 只 画 出 了 一 种 情况 。 

图 中 Ll TLB 和 L2 TLB 分 别 是 第 一 级 和 第 二 级 TLB,L1 Cache 和 L2 Cache 分 别 是 第 
一 级 和 第 二 级 Cache。L1 TLB 采用 全 相 联 ,共有 40 个 条 目 。L2 TLB 采用 4 路 组 相 联 , 共 
有 512 个 条 目 。L1 Cache 的 大 小 是 64KB, 块 大 小 为 64B, 采 用 两 路 组 相 联 和 LRU 替换 算 
法 。L2 Cache 的 大 小 是 1MB, 块 大 小 也 是 64B, 采 用 16 路 组 相 联 和 伪 LRU 替换 算法 。 

图 7.39 是 AMD Opteron 存储 器 层次 结构 的 详细 示意 图 ,下 面 来 逐步 研究 该 存储 器 层 
次 结构 的 工作 情况 。 图 中 以 分 步 标 识 (@@@…) 的 形式 表示 了 这 一 过 程 。 在 具体 跟踪 该 过 
程 之 前 , 先 来 计算 一 下 索引 的 位 数 。 由 于 指令 Cache 的 大 小 是 64KB, 块 大 小 是 64B, 采 用 2 
路 组 相 联 , 所 以 有 


2iniex 一 Cache 大 小 64KB 


于 天 夏 久 组 入 联 度 64BX5 512 一 2 


即 索引 (index) 为 9 位 。 

指令 Cache 采用 虚拟 索引 、 物 理 标 识 。 所 以 ,访问 Cache 和 虚实 地 址 变换 可 以 同时 进 
行 。 把 指令 地 址 的 虚 页 号 部 分 送 给 指令 TLB, 这 是 第 四 步 ( 即 图 中 的 D)。 与 此 同时 ,将 9 
位 索引 加 上 额外 的 2 位 (以 便 从 块 中 选取 所 要 的 16 个 字 节 ) 送 给 指令 Cache, 这 是 第 四 步 
( 即 图 中 的 @, 以 此 类 推 )。 全 相 联 的 TLB 同时 对 全 部 的 40 个 条 目 进 行 查询 ,看 看 是 否 有 匹 
配 的 PTE 项 (第 @ 步 .第 @ 步 )。 如 果 有 . 则 除了 进行 地 址 转换 外 ,TLB 还 会 根据 该 PTE 中 
的 信息 检查 所 要 进行 的 访问 是 否 会 超越 权限 而 导致 异常 。 

如 果 指 令 TLB 不 命中 ,该 访问 就 被 交 给 第 二 级 指令 TLB, 该 TLB 共有 512 个 PTE。 
把 一 个 PTE 项 从 第 二 级 TLB 加 载 到 第 一 级 TLB 需要 两 个 时 钟 周期 。 

最 坏 的 情况 是 页 面 不 在 存储 器 中 ,这 时 ,操作 系统 需要 从 硬盘 中 将 其 调 入 。 由 于 处 理 页 
故障 时 ,CPU 的 等 待 时 间 较 长 ,足以 执行 上 百 万 条 指令 。 所 以 ,如 果 有 其 他 进程 在 等 待 , 操 
作 系统 会 将 其 换 入 并 执行 。 

如 果 没 有 发 生 TLB 异常 ,本 次 对 指令 Cache 的 访问 将 继续 进行 。 虚 拟 地 址 的 页 内 位 移 
中 的 索引 同时 被 送 到 两 路 组 相 联 Cache 中 的 两 个 组 (第 @@ 步 )。 指 令 Cache 的 标识 是 40 一 9 
(索引 ) 一 6( 块 内 位 移 ) 一 25( 位 )。2 个 标识 与 由 指令 TLB 产生 的 物理 页 号 进行 比较 (第 @ 
步 )。 因 为 Opteron 每 次 取 指 令 是 取 16 个 字 节 ,所 以 还 要 从 6 位 的 块 内 偏 移 中 取出 2 位 去 
选择 所 要 的 16 字 节 。 也 就 是 说 ,是 用 了 11 位 地 址 。 如 果 指 令 Cache 不 命中 ,就 要 去 访问 第 
二 级 Cache, 同 时 也 去 访问 主 存 。 访 问 主 存 是 为 了 在 第 二 级 Cache 不 命中 时 ,能 减少 不 命中 
开销 。 

如 前 所 述 ,指令 Cache 采用 “虚拟 地 址 寻 址 十 物理 地 址 标识 ”。 发 生 不 命中 时 ,Cache 控 
制 器 必须 进行 同名 ( 即 两 个 不 同 的 虚拟 地 址 引用 同一 物理 地 址 ) 检 查 。 所 以 ,在 访问 第 二 级 
Cache 进行 标识 比较 的 同时 ,可 在 指令 Cache 中 对 其 标识 进行 同名 检查 。 因 为 页 面 最 小 为 
4KB, 需 要 12 位 地 址 ,而 Cache 索引 和 块 内 位 移 加 起 来 共 15 位 ,所 以 为 了 检查 同名 ,指令 
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Cache 必须 为 每 路 进行 8( 即 2) 个 块 的 检查 。Opteron 是 利用 为 实现 监听 协议 (10. 2 节 ) 而 
专门 设置 的 一 套 标 识 来 进行 同名 检查 的 ,在 一 个 时 钟 周期 内 就 能 完成 所 有 的 同名 检查 工作 。 
如 果 找 到 了 同名 ,就 将 导致 同名 的 块 设置 无 效 ,并 让 它 存放 其 他 的 块 。 这 样 就 可 以 保证 : 在 
任何 时 候 , 一 个 Cache 块 只 会 出 现在 它 可 以 去 的 16 个 Cache 块 位 置 中 的 某 个 位 置 。 


页 偏 移 地 址 
i oo Eo 
人 <128> <64> 数据 输入 <64> 
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7.39 AMD Opteron 存储 器 层次 结构 图 


在 指令 Cache 不 命中 时 ,就 访问 第 二 级 Cache 以 获得 要 访问 的 块 。 第 二 级 Cache 的 大 
小 是 1MB, 采 用 16 路 组 相 联 , 块 大 小 为 64B。 它 采用 伪 LRU 替换 算法 ,这 是 通过 管理 8 对 
LRU 块 来 实现 的 。 进 行 替 换 时 ,从 这 8 对 中 随机 选取 一 对 来 决定 替换 哪个 块 。 对 于 第 二 级 


Cache ,我 们 有 


疗 储 系统 


Dindex Cache 大 小 1024KB 
块 大 小 x 组 相 联 度 64B X 16 


所 以 34 位 块 地址 (40 位 (物理 地 址 ) 一 6 位 ( 块 内 地 址 ) 王 34 位 ) 被 切 分 为 24 位 标识 和 10 位 
索引 (第 @ 步 )。 这 个 索引 和 标识 被 送 到 第 二 级 16 路 组 相 联 Cache 中 的 每 一 个 组 ( 共 16 个 
组 )( 第 @ 步 ) ,进行 并 行 比较 。 如 果 有 一 个 匹配 且 有 效 ( 第 四 步 ) ,第 二 级 Cache 将 把 相应 的 
块 返回 给 指令 Cache。 传 送 速度 是 每 个 时 钟 周 期 8 字 节 。 同 时 ,第 二 级 Cache 还 要 取消 前 
面 第 一 级 Cache 发 送 给 存储 控制 器 的 访 存 请 求 。 对 于 在 第 一 级 指令 Cache 不 命中 ,但 在 第 
二 级 Cache 命中 的 访问 , 它 得 到 第 一 个 字 所 要 等 待 的 时 间 是 7 个 时 钟 周期 。 

与 多 级 存储 器 通常 采用 的 包容 性 质 不 同 ,Opteron 对 于 其 第 一 级 Cache 和 第 二 级 Cache 
采用 互 斥 的 策略 ,就 是 说 ,一 个 块 要 么 在 第 一 级 Cache 中 ,要么 在 第 二 级 Cache 中 ,不 会 同时 
出 现在 这 两 者 中 ,这 是 为 了 更 好 地 利用 资源 。 当 一 个 块 从 主 存 调 入 时 ,不 是 简单 地 将 其 放 入 
第 二 级 Cache 中 ,而 是 将 其 放 入 第 一 级 Cache 中 ,并 把 从 第 一 级 Cache 中 替换 出 来 的 块 送 到 
第 二 级 Cache。 这 又 会 从 第 二 级 Cache 中 替换 出 来 一 个 块 。 如 果 这 个 块 是 修改 过 的 , 它 就 
会 被 送 到 写 缓 冲 器 。Opteron 把 该 写 缓冲 器 称 为 “牺牲 ?缓冲 器 (Victim Buffer) 。 

在 第 10 章 中 ,我 们 将 说 明 包 容 性 是 如 何 允 许 所 有 的 多 级 Cache 一 致 性 操作 仅 影响 第 二 
级 Cache 而 不 影响 第 一 级 Cache 的 。 而 互 斥 策略 意味 着 一 致 性 操作 必须 对 这 两 者 都 进行 检 
查 。 为 了 减少 一 致 性 操作 对 CPU 访问 第 一 级 Cache 的 干扰 ,Opteron 为 实现 一 致 性 监听 协 
议 专 门 设置 了 一 套 标 识 副 本 。 

如 果 所 要 取 的 指令 在 第 二 级 Cache 中 也 没有 找到 , 则 片上 的 存储 器 控制 器 必须 从 主 存 
调和 一 个 块 。Opteron 有 两 个 各 是 64 位 的 存储 器 通道 。 由 于 只 有 一 个 存储 器 控制 器 ,而 且 
送 给 这 两 条 通道 的 地 址 也 相同 , 故 可 以 作为 一 个 128 位 的 通道 使 用 (第 @ 步 )。 当 两 条 通道 
使 用 同样 的 DIMM(Dual Inline Memory Module) 时 ,就 能 够 实现 宽 通 道 传输 。 每 条 通道 最 
多 支持 4 个 DDR DIMM( 第 @ 步 )。 

因为 Opteron 对 第 一 级 数据 Cache、 第 二 级 Cache、 总 线 和 存储 器 提供 纠 一 检 二 ( 即 纠正 
单个 错误 ,检测 两 个 错误 ) 的 能 力 , 所 以 实际 上 数据 总 线 对 每 个 64 位 都 附加 了 8 位 的 ECC 
纠 错 码 。 为 减少 第 二 次 出 错 的 概率 ,Opteron 利用 空闲 周期 来 纠正 单个 错误 ,这 是 通过 对 数 
据 Cache、 二 级 Cache 和 存储 器 上 损坏 了 的 块 进行 读 出 和 重 写 来 实现 的 。 由 于 指令 Cache 
和 TLB 是 只 读 的 , 故 它们 采用 奇偶 校 验 码 。 如 果 发 生 了 奇偶 错误 , 则 从 下 一 级 存储 器 重读 。 

当 指 令 在 Cache 中 不 命中 而 从 主 存 取 来 时 ,总 的 时 间 延 迟 大 概 是 20 个 CPU 时 钟 周期 
再 加 上 从 DRAM 取出 关键 指令 字 所 需要 的 时 延 (第 @ 步 )。 

Opteron 有 一 个 和 第 二 级 Cache 相关 联 的 预 取 引 擎 (第 @@ 步 )。 它 观察 第 二 级 Cache 发 
生 不 命中 时 调 块 的 走向 (向 前 或 向 后 ) ,并 沿 着 该 方向 把 下 一 行 预 取 到 第 二 级 Cache 中 。 

由 于 第 二 级 Cache 采用 写 回 法 ,所 以 任何 一 次 不 命中 都 有 可 能 导致 一 个 块 被 替换 且 需 
要 写 回 主 存 (因为 被 修改 过 ) 。 这 时 ,如果 不 采用 特别 的 措施 ,就 要 等 被 蔡 换 的 块 写 回 主 存 ， 
腾 出 一 个 块 的 位 置 后 ,才能 调 入 新 访问 的 块 。Opteron 把 这 样 的 块 称 为 “牺牲 ? 块 , 并 将 之 放 
入 “牺牲 ?缓冲 器 中 (第 四 步 ) ,这样 很 快 就 腾 出 了 块 位 置 , 从 而 使 得 不 命中 的 读 指 令 操 作 可 以 
立即 继续 进行 ,而 不 用 等 到 “牺牲 ? 块 写 回 主 存 之 后 才 来 处 理 。 这 与 数据 Cache 对 “牺牲 ? 块 
的 处 理 方式 相同 。 

“牺牲 ?缓冲 器 的 大 小 为 8 项 ,所 以 可 以 有 许多 “牺牲 ? 块 在 这 里 排队 ,等待 写 入 第 二 级 


1024 = 2 
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Cache 或 存储 器 。 存 储 控制 器 最 多 可 以 同时 处 理 10 个 Cache 块 不 命中 ,包括 8 个 数据 
Cache 不 命中 和 2 个 指令 Cache 不 命中 ,从 而 使 得 它 能 够 实现 10 次 不 命中 下 的 命中 。 对 于 
Cache 不 命中 ,数据 Cache 和 第 二 级 Cache 都 会 去 检查 “牺牲 "缓冲 器 ,看 是 否 有 匹配 的 块 。 
如 果 有 ,就 等 到 相关 的 块 写 入 存储 器 后 . 才 重 新 去 取 。 新 的 数据 一 旦 到 达 , 就 立即 被 加 载 到 
指令 Cache( 第 @ 步 )。 此 外 ,由 于 采用 的 互 斥 特性 ,该 块 不 会 被 加 载 到 第 二 级 Cache 中 。 

如 果 初 始 指令 是 一 条 load 指令 ,数据 地 址 就 会 同时 被 送 给 数据 Cache 和 数据 TLB, 这 
和 上 述 对 指令 Cache 的 访问 很 相似 。 这 是 因为 在 Opteron 的 存储 层次 中 ,指令 Cache 和 
TLB 与 数据 Cache 和 TLB 都 是 对 称 的 。 不 同 的 是 ,数据 Cache 有 两 个 存储 体 。 对 于 两 条 
访 存 指令 (load 和 store 的 各 种 组 合 都 可 以 ) 来 说 ,只 要 它们 访问 的 是 不 同 的 存储 体 ,就 可 以 
同时 执行 这 两 条 指令 。 另 外 ,数据 Cache 的 不 命中 可 能 会 导致 产生 需要 写 回 主 存 的 “牺牲 ” 
块 。 这 时 ,可 同时 进行 以 下 两 种 操作 

。 把 “牺牲 ? 块 从 数据 Cache 中 取出 并 送 入 “牺牲 ?缓冲 器 ; 

。 从 第 二 级 Cache 取 数 据 块 , 送 入 数据 Cache。 

当 store 指令 流出 时 ,会 像 load 指令 一 样 检查 数据 Cache。 写 不 命中 会 导致 一 个 块 被 调 
入 数据 Cache 中 ,这 和 load 不 命中 非常 相似 。 这 是 因为 该 Cache 采用 按 写 分 配 的 写 策略 。 

store 指令 要 等 到 知道 它 不 是 前 瞻 执 行 时 才 会 去 更 新 Cache。 在 此 等 待 期 间 , 它 被 放 人 
一 个 load-store 队列 中 。 这 个 队列 是 处 理 器 乱 序 控制 机 制 的 组 成 部 分 。 它 最 多 能 存放 44 
个 项 ,并 且 支 持 把 结果 前 脆性 地 定向 到 执行 部 件 。 

数据 Cache 采用 ECC 纠 错 码 , 所 以 在 执行 store 指令 而 需要 修改 数据 Cache 时 ,需要 采 
用 “ 读 -修改 - 写 ” 操 作 来 更 新 数据 Cache。 这 是 通过 在 load/store 队列 中 装配 完整 的 块 并 且 
总 是 把 整 块 写 回来 实现 的 。 


习 题 7 
7.1 解释 下 列 名 词 。 
多 级 存储 层次 命中 时 间 不 命中 率 不 命中 开销 
全 相 联 映像 直接 映像 组 相 联 映像 替换 算法 
LRU 写 直达 法 写 回 法 按 写 分 配 法 
不 按 写 分 配 法 强制 性 不 命中 容量 不 命中 冲突 不 命中 
2 : 1 Cache 经 验 规则 相 联 度 牺牲 Cache 故障 性 预 取 
非 故 障 性 预 取 非 阻 塞 Cache 尽早 重启 动 请 求 字 优先 
多 级 包容 性 虚拟 Cache 并 行 主 存 系 统 ”多 体 交 叉 存储 器 


存储 体 冲 突 TLB 

7.2 简 述 “Cache- 主 存 " 层 次 与 “ 主 存 - 辅 存 " 层 次 的 区 别 。 

7.3 替换 算法 有 哪 几 种 ? 它们 各 有 什么 优 缺 点 ? 

7.4 设 有 一 个 “Cache- 主 存 ” 层 次 .Cache 为 4 块 , 主 存 为 8 块 ; 试 分 别 对 于 以 下 三 种 情 
况 , 面 出 其 映像 关系 示意 图 ,并 计算 访 存 块 地 址 为 5 时 的 索引 (index)。(1) 全 相 联 ; (2) 组 
相 联 ,每 组 两 块 ; (3) 直 接 映像 。 

7.5 通过 编译 器 对 程序 优化 来 改进 Cache 性 能 的 方法 有 哪 几 种 ? 简 述 其 基本 思想 。 
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7.6 组 相 联 Cache 的 不 命中 率 比 相同 容量 直接 映像 Cache 的 不 命中 率 低 。 由 此 能 否 
得 出 结论 : 采用 组 相 联 一 定 能 带 来 性 能 上 的 提高 ? 为 什么 ? 

7.7 简 述 “虚拟 索引 十 物理 标识 ”Cache 的 基本 思想 , 它 有 什么 优 缺 点 ? 

7.8 假设 对 指令 Cache 的 访问 占 全 部 访问 的 75% ;而 对 数据 Cache 的 访问 占 全 部 访 
问 的 25%。Cache 的 命中 时 间 为 1 个 时 钟 周期 ,不 命中 开销 为 50 个 时 钟 周期 ,在 混合 
Cache 中 一 次 load 或 store 操作 访问 Cache 的 命中 时 间 都 要 增加 一 个 时 钟 周 期 ,32KB 的 指 
令 Cache 的 不 命中 率 为 0. 39%,32KB 的 数据 Cache 的 不 命中 率 为 4. 82% ,64KB 的 混合 
Cache 的 不 命中 率 为 1. 35%。 又 假设 采用 写 直 达 策 略 , 且 有 一 个 写 缓冲 器 ,并 且 和 忽略 写 缓冲 
器 引起 的 等 待 。 试 问 指令 Cache 和 数据 Cache 容量 均 为 32KB 的 分 离 Cache 和 容量 为 
64KB 的 混合 Cache 相 比 , 哪 种 Cache 的 不 命中 率 更 低 ? 两 种 情况 下 平均 访 存 时 间 各 是 
多 少 ? 

7.9 假设 在 3000 次 访 存 中 ,第 一 级 Cache 不 命中 110 次 ,第 二 级 Cache 不 命中 55 次 。 
试问 : 在 这 种 情况 下 ,该 Cache 系统 的 局 部 不 命中 率 和 全 局 不 命中 率 各 是 多 少 ? 

7.10 ”给 定 以 下 的 假设 , 试 计算 直接 映像 Cache 和 两 路 组 相 联 Cache 的 平均 访问 时 间 
以 及 CPU 的 性 能 。 由 计算 结果 能 得 出 什么 结论 ? 

(1) 理想 Cache 情况 下 的 CPI 为 2. 0, 时 钟 周期 为 2ns ,平均 每 条 指令 访 存 1.2 次 ; 

(2) 两 者 Cache 容量 均 为 64KB, 块 大 小 都 是 32 字 节 ; 

(3) 组 相 联 Cache 中 的 多 路 选择 器 使 CPU 的 时 钟 周 期 增加 了 10%; 

(4) 这 两 种 Cache 的 不 命中 开销 都 是 80ns; 

(5) 命中 时 间 为 1 个 时 钟 周期 ; 

(6) 64KB 直接 映像 Cache 的 不 命中 率 为 1. 4% ,64KB 两 路 组 相 联 Cache 的 不 命中 率 
为 1.0%。 

7.11 在 伪 相 联 中 ,假设 在 直接 映像 位 置 没有 发 现 匹 配 ,而 在 另 一 个 位 置 才 找到 数据 
( 伪 命 中 ) 时 ,不 对 这 两 个 位 置 的 数据 进行 交换 。 这 时 只 需要 1 个 额外 的 周期 。 假 设 不 命中 
开销 为 50 个 时 钟 周 期 ,2KB 直接 映像 Cache 的 不 命中 率 为 9.8% ,两 路 组 相 联 的 不 命中 率 
为 7.6%;128KB 直接 映像 Cache 的 不 命中 率 为 1.0% ,两 路 组 相 联 的 不 命中 率 为 0.7%。 

(1) 推导 出 平均 访 存 时 间 的 公式 。 

(2) 利用 (1) 中 得 到 的 公式 ,对 于 2KB Cache 和 128KB Cache, 计 算 伪 相 联 的 平均 访 存 
时 间 。 

7.12 假设 采用 理想 存储 器 系统 时 的 基本 CPI 是 1. 5 , 主 存 延 迟 是 40 个 时 钟 周期 ; 传 
输 速 率 为 4 字 节 /时 钟 周期 , 且 Cache 中 50%% 的 块 是 修改 过 的 。 每 个 块 中 有 32 字 节 ,20% 
的 指令 是 数据 传送 指令 ,并 假设 没有 写 缓存 .在 TLB 不 命中 的 情况 下 需要 20 个 时 钟 周期 ， 
TLB 不 会 降低 Cache 命中 率 。CPU 产生 指令 地 址 或 Cache 不 命中 时 产生 的 地 址 有 0. 2% 
没有 在 TLB 中 找到 。 

(1) 在 理想 TLB 情况 下 ,计算 均 采 用 写 回 法 16KB 直接 映像 混合 Cache、16KB 两 路 组 
相 联 混合 Cache 和 32KB 直接 映像 混合 Cache 机 器 的 实际 CPI; 

(2) 在 实际 TLB 情况 下 ,用 (1) 的 结果 ,计算 均 采 用 写 回 法 16KB 直接 映像 混合 Cache、 
16KB 两 路 组 相 联 混合 Cache 和 32KB 直接 映像 混合 Cache 机 器 的 实际 CPI。 

其 中 假设 16KB 直接 映像 混合 Cache、16KB 两 路 组 相 联 混合 Cache 和 32KB 直接 映像 
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的 不 命中 率 分 别 为 2.9%、2.2% 和 2.0%;25% 的 访 存 为 写 访问 。 
某 个 程序 共 访 问 存 储 器 1 000 000 次 ,该 程序 在 某 个 系统 中 运行 ,系统 中 Cache 


的 不 命中 率 为 7% ,其 中 ,强制 性 不 命中 和 容量 不 命中 各 占 25% ,冲突 不 命中 占 50%。 问 ， 

(1) 当 人 允许 对 该 Cache 所 做 的 唯一 改变 是 提高 相 联 度 时 ,此 时 期 望 能 够 消除 的 最 大 不 
命中 次 数 是 多 少 ? 

(2) 当 允 许 能 够 同时 提高 Cache 的 容量 大 小 和 相 联 度 时 ,此 时 期 望 能 够 消除 的 最 大 不 
命中 次 数 是 多 少 ? 

7.14 假设 一 台 计 算 机 具有 以 下 特性 : 


(1) 95 


% 的 访 存 在 Cache 中 命中 ; 


(2) 块 大 小 为 两 个 字 , 且 不 命中 时 整个 块 被 调 入 ; 
(3) CPU 发 出 访 存 请 求 的 速率 为 10" 字 / 秒 ; 


(4) 25 


多 的 访 存 为 写 访问 ; 


(5) 存储 器 的 最 大 流量 为 10? 字 / 秒 (包括 读 和 写 ); 
(6) 主 存 每 次 只 能 读 或 写 一 个 字 ; 

(7) 在 任何 时 候 ,Cache 中 有 30% 的 块 被 修改 过 ; 
(8) 写 不 命中 时 ,Cache 采用 按 写 分 配 法 。 


现 欲 给 
两 种 情况 计 


该 计算 机 增添 一 台 外 设 ,为 此 首先 想 知 道 主 存 的 带宽 已 用 了 多 少 。 试 对 于 以 下 
算 主 存 带宽 的 平均 使 用 比例 。 


(1) 写 直 达 Cache; 


(2) 写 
元 
址 。 由 于 各 
4MB/s, 问 3 
7.16 
4K 字 ,要 求 
址 变换 。 求 
?7 
每 个 存储 周 
Ts 


回 法 Cache。 

设 主 存 每 个 分 体 的 存储 周期 为 2ps ,存储 字 长 为 4B, 采 用 m 个 分 体 低位 交叉 编 
种 原因 , 主 存 实际 带宽 只 能 达到 最 大 带宽 的 0. 6 倍 , 现 要 求 主 存 实际 带宽 为 
E 存 分 体 数 应 取 多 少 ? 

设 主 存 由 8 个 存储 体 按 低 位 交叉 编 址 方式 组 成 , 主 存 容量 1M 字 ,Cache 容量 为 
一 个 主 存 周期 从 主 存 取得 一 个 块 。 采 用 全 相 联 地 址 映像 ,用 相 联 目录 表 实 现 地 
相 联 目录 表 的 行 数 、 比 较 位 数 、 宽 度 和 总 位 数 。 

程序 存放 在 模 32 单字 交叉 存储 器 中 , 设 访 存 申请 队列 的 转移 概率 4 为 25%, 求 
期 能 访问 到 的 平均 字数 。 若 模 数 为 16 呢 ? 由 此 可 得 出 什么 结论 ? 

在 某 个 Cache 存储 器 中 ,用 比较 对 法 实现 LRU 替换 算法 。 当 Cache 的 块 数 为 


8 时 ,需要 多 少 个 触发 器 ? 


第 章 
8 输入 输出 系统 


内 容 提要 

(1) 1/O 系统 的 性 能 ; 

(2) 1/O 系统 的 可 靠 性 、 可 用 性 和 可 信 性 ; 

(3) 廉价 磁盘 宛 余 阵列 ; 

(4) 总 线 ; 

(5) 通道 处 理 机 ; 

(6) 1/O 与 操作 系统 。 

输入 输出 系统 简称 1/O 系统 , 它 包括 I/O 设备 以 及 I/O 设备 与 处 理 机 的 连接 。I/O 系 
统 是 计算 机 系统 中 的 一 个 重要 组 成 部 分 , 它 完成 计算 机 与 外 界 的 信息 交换 ,或 者 给 计算 机 提 
供 大 容量 的 外 部 存储 器 。 


8.1 1/O 系统 的 性 能 


输入 输出 系统 简称 1/O 系统 , 它 包括 I/O 设备 以 及 1/O 设备 与 处 理 机 的 连接 。I/O 系 
统 是 计算 机 系统 中 的 一 个 重要 组 成 部 分 , 它 完成 计算 机 与 外 界 的 信息 交换 ,或 者 给 计算 机 提 
供 大 容量 的 外 部 存储 器 。 本 章 中 我 们 将 更 多 地 讨论 后 者 。 

1/O 系统 的 性 能 对 CPU 的 性 能 有 很 大 的 影响 ,车 两 者 的 性 能 不 匹配 ,1/O 系统 就 有 可 
能 成 为 整个 系统 的 瓶颈 。 虽 然 CPU 时 间 是 衡量 计算 机 系统 的 一 个 重要 指标 .但 系统 的 响 
应 时 间 是 一 个 更 好 的 衡量 指标 。 它 是 指 从 用 户 输 入 命令 开始 ,到 得 到 结果 所 花 的 时 间 。 这 
个 时 间 由 两 部 分 构成 : I/O 系统 的 响应 时 间 以 及 CPU 的 处 理 时 间 。 如 果 1/O 系统 的 响应 
时 间 很 长 ,CPU 再 快 也 没 用 。 

分 时 操作 系统 可 以 提高 资源 利用 率 , 它 使 得 计算 机 内 部 可 以 同时 存在 多 个 进程 。 当 某 
个 进程 在 等 待 1/O 处 理 时 ,其 他 进程 可 以 使 用 CPU ,这样 就 不 会 造成 资源 的 浪费 。 但 是 多 
进程 技术 只 能 提高 系统 的 吞吐 率 ,并 不 能 减少 系统 的 响应 时 间 。 毫 无 疑问 ,如 果 用 户 不 关心 
响应 时 间 ,就 不 会 出 现 交 互 式 软件 ,也 就 不 会 有 现在 广泛 应 用 的 工作 站 和 微机 了 。 另 外 ,有 
些 实 时 的 事务 处 理 对 系统 响应 时 间 还 提出 了 更 高 的 要 求 。 

Amdahl 定律 告诉 我 们 : 计算 机 系统 的 性 能 受 限 于 系统 中 最 慢 的 部 分 。 在 2002 年 以 前 
的 十 多 年 中 ,CPU 的 性 能 每 年 增长 约 55% ,而 1/O 性 能 的 提高 却 小 得 多 。 如 果 I/O 系统 没 
有 明显 改进 的 话 , 那 么 计算 机 系统 的 总 体 性 能 将 越 来 越 受 限于 1/O 系统 。 
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评价 I/O 系统 性 能 的 参数 主要 有 : 连接 特性 ,1/O 系统 的 容量 ,响应 时 间 和 吞吐 率 等 。 
连接 特性 是 指 哪些 1/O 设备 可 以 和 计算 机 系统 相连 ,1/O 系统 的 容量 是 指 IO 系统 可 以 容 
纳 的 IO 设备 数 。 另 一 种 衡量 1/O 系统 性 能 的 方法 是 考虑 1/O 操作 对 CPU 的 打扰 情况 ， 
即 考查 某 个 进程 在 执行 时 ,由 于 其 他 进程 的 1/O 操作 ,使 得 该 进程 的 执行 时 间 增 加 了 多 少 。 


8.2 I/O 系统 的 可 靠 性 、 可 用 性 和 可 信 性 


除了 容量 .速度 和 价格 外 ,人 们 有 时 更 关心 存储 外 设 的 可 靠 性 。 因 为 软件 系统 的 骨 溃 可 
以 通过 重新 安装 操作 系统 和 应 用 程序 来 解决 .但 是 用 户 的 数据 如 果 丢 失 , 就 可 能 找 不 回来 
了 。 所 以 存储 设备 应 该 无 条 件 地 保护 好 用 户 的 数据 。 跟 计算 机 系统 中 的 其 他 组 成 部 分 相 
比 , 人 们 往往 对 I/O 系统 的 可 靠 性 有 更 高 的 要 求 。 

反映 存储 外 设 可 靠 性 的 参数 有 : 可 靠 性 (Reliability) 、 可 用 性 (Availability) 和 可 信人 性 
(Dependability) 。 

系统 的 可 靠 性 是 指 系统 从 某 个 初始 参考 点 开始 一 直 连 续 提 供 服务 的 能 力 , 它 通常 用 平 
均 无 故障 时 间 (Mean Time To Failure, MTTF) 来 衡量 。MTTEF 的 倒数 就 是 系统 的 失效 率 。 
如 果 系 统 中 每 个 模块 的 生存 期 服从 指数 分 布 ,系统 整体 的 失效 率 就 是 各 部 件 的 失效 率 之 和 。 
系统 中 断 服务 的 时 间 用 平均 修复 时 间 (Mean Time To Repair, MTTR) 来 衡量 。 

系统 的 可 用 性 是 指 系统 正常 工作 的 时 间 在 连续 两 次 正常 服务 间隔 时 间 中 所 占 的 比率 。 


MTTF 
可 用 性 = MTTF+ MTTR 


上 式 中 的 MTTF 十 MTTR 通常 可 以 用 平均 失效 间隔 时 间 (Mean Time Between 
Failures, MTBF) 来 代替 。 

系统 的 可 信 性 是 指 服务 的 质量 , 即 在 多 大 程度 上 可 以 合理 地 认为 服务 是 可 靠 的 。 可 信 
性 与 可 靠 性 和 可 用 性 不 同 , 它 是 不 可 以 量度 的 。 

例 8.1 假设 磁盘 子 系统 的 组 成 部 件 和 它们 的 MTTF 如 下 : 

(1) 磁盘 子 系统 由 10 个 磁盘 构成 ,每 个 磁盘 的 MTTF 为 1000 000 小 时 ; 

(2) 1 个 SCSI 控制 器 ,其 MTTF 为 500 000 小 时 ; 

(3) 1 个 不 间断 电源 ,其 MTTF 为 200 000 小 时 ; 

(4) 1 个 风扇, 其 MTTF 为 200 000 小 时 ; 

(5) 1 根 SCSI 连 线 ,其 MTTF 为 1000 000 小 时 。 

假定 每 个 部 件 的 生存 期 服从 指数 分 布 ,同时 假定 各 部 件 的 故障 是 相互 独立 的 , 求 整个 系 


(8.1) 


统 的 MTTF。 
解 整个 系统 的 失效 率 为 
系统 失效 党 二 0X 0 000 十 有 时 To 是 i 有 000 
= 23 
1 000 000 
系统 的 MTTF 为 系统 失效 率 的 倒数 , 即 


MTTF = Ts 500( 小 时 ) 
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即将 近 5 年。 
提高 系统 组 成 部 件 可 靠 性 的 方法 包括 有 效 构建 方法 (Valid Construction) 和 纠 错 方法 
(Error Correction) 。 有 效 构 建 是 指 在 构建 系统 的 过 程 中 消除 故障 隐患 ,这 样 建 立 起 来 的 系 
统 就 不 会 出 现 故 障 。 纠 错 方法 是 指 在 系统 构建 中 采用 容错 的 方法 。 这 样 即 使 出 现 故 障 , 也 
可 以 通过 容错 信息 纠正 错误 ,保证 系统 正常 工作 。 
为 保证 元 余 信息 在 出 现 错误 时 不 失效 ,通常 要 将 其 存放 在 与 出 错 部 件 不 同 的 部 件 中 。 
这 种 方法 的 典型 应 用 就 是 磁盘 元 余 阵 列 。 


8.3 ”廉价 磁盘 宛 余 阵列 


磁盘 阵列 (Disk Array,DA) 是 使 用 多 个 磁盘 (包括 驱动 器 ) 的 组 合 来 代替 一 个 大 容量 的 
磁盘 。 这 不 仅 能 比较 容易 地 构建 大 容量 的 磁盘 存储 器 系统 ,而 且 可 以 提高 系统 的 性 能 ,因为 
磁盘 阵列 中 的 多 个 磁盘 可 以 并 行 地 工作 。 磁 盘 阵列 一 般 是 以 条 带 为 单位 把 数据 均匀 地 分 布 
到 多 个 磁盘 上 (交叉 存放 )。 条 带 存放 使 得 磁盘 存储 器 系统 可 以 并 行 地 处 理 多 个 数据 读 / 写 
请 求 , 从 而 提高 总 的 1/O 性 能 。 这 个 并 行 性 有 两 方面 的 含义 ; 

(1) 多 个 独立 的 请 求 可 以 由 多 个 盘 来 并 行 地 处 理 。 这 减少 了 1/O 请求 的 排队 等 待 时 间 。 

(2) 一 个 请 求 如 果 是 访问 多 个 块 的 话 ,就 可 以 由 多 个 磁盘 合作 来 并 行 处 理 。 这 提高 了 
单个 请 求 的 数据 传输 率 。 

阵列 中 磁盘 的 个 数 越 多 ,性 能 的 提高 就 越 多 。 但 是 ,磁盘 数量 的 增加 会 导致 磁盘 阵列 可 
靠 性 的 下 降 。 如 果 使 用 了 N 个 磁盘 构成 磁盘 阵列 ,那么 整个 阵列 的 可 靠 性 会 降低 为 单个 磁 
盘 的 1/N。 

可 以 通过 在 磁盘 阵列 中 设置 元 余 信息 盘 来 解决 这 个 问题 。 当 单个 磁盘 失效 时 ,丢失 的 
信息 可 以 利用 宛 余 盘 中 的 信息 重新 构建 。 只 有 在 这 个 失效 磁盘 被 恢复 (修复 或 更 换 ) 之 前 ， 
又 发 生 了 第 二 个 磁盘 的 失效 时 ,磁盘 阵列 才 不 能 正常 工作 。 由 于 磁盘 的 平均 无 故障 时 间 
(MTTF) 为 几 十 年 ,而 平均 修复 时 间 (MTTR) 只 有 几 个 小 时 ,所 以 容错 技术 使 得 磁盘 阵列 
的 可 靠 性 比 单个 磁盘 高 很 多 。 这 种 磁盘 阵列 被 称 为 RAID, 即 廉价 磁盘 元 余 阵 列 
(Redundant Array of Inexpensive Disks), 有 些 资 料 里 将 其 称 为 独立 磁盘 宛 余 阵列 
(Redundant Array of Independent Disks) 。 

大 多 数 磁盘 阵列 的 组 成 可 以 用 以 下 两 个 特征 来 区 分 : 

(1) 数据 交叉 存放 的 粒度 

(2) 元 余数 据 的 计算 方法 以 及 在 磁盘 阵列 中 的 存放 方式 。 

数据 交叉 存放 的 粒度 有 细 粒 度 和 粗 粒度 之 分 。 细 粒度 磁盘 阵列 是 在 概念 上 把 数据 分 割 
成 相对 较 小 的 单位 交叉 存放 。 这 样 几乎 所 有 的 1/O 请 求 , 不 管 大 小 ,都 会 访问 磁盘 阵列 中 
的 所 有 磁盘 。 其 结果 是 所 有 1/O 请 求 都 能 够 获得 很 高 的 数据 传输 率 。 其 缺点 是 在 任何 时 
间 , 都 只 有 一 个 逻辑 上 的 1/O 在 处 理 当 中 ,而 且 所 有 的 磁盘 都 会 因为 为 每 个 请 求 进行 定位 
而 浪费 时 间 。 

粗 粒度 磁盘 阵列 是 把 数据 以 相对 较 大 的 单位 交叉 存放 。 这 样 规模 较 小 的 W/O 请 求 只 
需要 访问 数量 较 少 的 几 个 磁盘 ,只 有 较 大 规模 的 请 求 才 会 访问 到 所 有 的 磁盘 。 多 个 较 小 规 
模 的 请 求 可 以 同时 得 到 处 理 , 而 对 于 较 大 规模 的 请 求 来 说 又 能 获得 较 高 的 传输 率 。 
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在 磁盘 阵列 中 设置 元 余 需 要 解决 以 下 两 个 问题 : 
(1) 如 何 计算 元 余 信 息 。 当 今 的 磁盘 阵列 大 多 采用 奇偶 校 验 码 , 但 也 有 采用 汉 明 码 或 
Reed-Solomon 码 的 。 
(2) 如 何 把 元 余 信 息 分 布 到 磁盘 阵列 中 的 各 个 盘 , 有 两 种 方法 : 
。 把 元 余 信 息 集 中 存放 在 少数 的 几 个 盘 中 ; 
。 把 元 余 信息 均匀 地 存放 到 所 有 的 盘 中 。 
一 般 都 会 采用 后 一 种 方法 ,因为 它 能 避免 出 现 热点 问题 。 
在 RAID 中 增加 宛 余 信息 盘 有 几 种 不 同 的 方法 ,它们 构成 了 不 同 的 RAID 级 别 ,如 
表 8. 1 所 示 。 各 级 RAID 的 代价 和 性 能 各 不 相同 。 


表 8.1 RAID 的 分 级 及 其 特性 


可 以 容忍 的 故障 个 数 
以 及 当 数 据 盘 为 8 个 i 
RAID 级 别 时 ,所 需要 的 检测 盘 优 点 缺 点 公司 产品 
的 个 数 
0 非 元 余 , | 0 个 故障 wy a 
条 带 存放 0 个 检测 盘 没有 空间 开销 没有 纠 错 能 力 广泛 应 用 
不 需要 计算 奇偶 校 验 , 数 NC Hi 
1 镜像 1 个 故障 据 恢复 快 ,读数 据 快 。 而 | 检测 空间 开销 最 大 pi 
8 个 检测 盘 且 其 小 规模 写 操作 比 更 高 | ( 即 需要 的 检测 盘 最 多 ) 证 
级 别 的 RAID 快 
6 检测 空间 开销 的 级 别 是 
2 存储 器 |1 个 故障 5 oe 
式 ECC 4 个 检测 盘 不 依靠 故障 盘 进 行 自 诊断 pd 为 数据 盘 的 | 没有 
检测 空间 开销 小 ( 即 需要 本 
3 位 交叉 奇 | 1 个 故障 对 小 规模 、 随 机 的 读 写 操 b 
| 的 检测 盘 少 ) ,大 规模 读 写 外 存 概念 
偶 校 验 1 个 检测 盘 操作 的 带宽 高 作 没 有 提供 专门 的 支持 
4 块 交叉 奇 | 1 个 故障 检测 空间 开销 小 ,小 规模 
偶 校 验 。 “| 1 个 检测 盘 的 读 操作 带宽 更 高 | 
5 块 交叉 分 | 1 个 故障 检测 空间 开销 小 ,小 规模 | 小 规模 写 操作 需要 访问 磁 广泛 应 用 
布 奇偶 校 验 | 1 个 检测 盘 的 读 写 操作 带宽 更 高 盘 4 次 
小 规模 写 操作 需 要 访问 磁 
6PP 十 Q 双 | 2 个 故障 rap . 盘 6 次 ,检测 空间 开销 加 i 
奇偶 校 验 ”| 2 个 检测 盘 只 有 和 容 妥 两 个 让 障 的 能 力 倍 (与 RAID3、RAID4、 网 络 设备 


RAID5 比较 ) 


RAID 的 一 个 关键 问题 是 如 何 发 现 磁盘 的 故障 。 这 个 问题 很 好 解决 ,因为 在 磁盘 肩 区 
中 除了 保存 数据 信息 外 ,还 保存 用 于 发 现 该 扇 区 错误 的 检测 信息 。 在 对 扇 区 中 的 数据 信息 


进行 读 取 的 


同时 ,可 以 检测 到 是 否 有 错误 。 


设计 RAID 的 另 一 个 问题 是 如 何 减少 平均 修复 时 间 (MTTR)。 典 型 的 做 法 是 在 系统 
中 增加 热 备份 盘 (Hot Spares)。 热 备份 盘 在 RAID 正常 工作 时 不 起 作用 。 但 是 ,一旦 RAID 
中 的 某 个 磁盘 失效 , 热 备份 盘 将 代替 该 失效 盘 进 行 工 作 。 失 效 磁盘 中 丢失 的 数据 将 根据 元 
余 磁 盘 以 及 其 他 盘 上 的 信息 进行 重新 构建 .并 放 到 热 备份 盘 中 。 如 果 这 个 过 程 是 自动 的 ,就 
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能 有 效 地 减少 MTTR, 此 时 失效 盘 的 修复 已 不 再 是 决定 MTTR 的 主要 因素 。 

与 热 备份 盘 相关 的 一 种 技术 是 热切 换 (Hot Swapping) 技 术 。 具 有 热切 换 功 能 的 系统 
允许 在 不 关机 的 情况 下 更 换 设备 。 这 样 ,具有 热 备份 盘 和 热切 换 技术 的 系统 将 会 一 直 在 线 
提供 服务 。 丢 失 的 数据 将 立即 在 热 备份 盘 上 重新 构建 ,并 使 该 备份 盘 变 成 工作 盘 。 而 失效 
盘 将 被 换 下 ,新 换 上 去 的 磁盘 变 成 备份 盘 。 


8.3.1 RAIDO 


RAID0 是 非 元 余 磁 盘 阵 列 ,虽然 严格 来 说 , 它 并 不 属于 RAID, 但 习惯 上 都 把 它 列 为 
RAID 的 第 0 级 。 它 是 RAID 中 最 简单 的 一 种 ,实现 成 本 也 最 低 。 它 是 把 若干 个 磁盘 连接 
在 一 起 形成 一 个 容量 更 大 ,能 并 行 工 作 的 磁盘 。 它 把 数据 切 分 成 条 带 (strip) ,以 条 带 为 单位 
交叉 地 分 布 存放 到 多 个 磁盘 中 ,如 图 8. 1 所 示 , 图 中 A、B、C、D 等 是 按 顺 序 排列 的 条 带 , 其 
大 小 称 为 条 带宽 度 。 不 同 的 RAID 实现 中 所 采用 的 条 带宽 度 可 能 不 同 。 当 从 磁盘 阵列 中 按 
顺序 读 取 这 些 数据 时 ,所 有 的 磁盘 都 可 以 并 行 工作 ,各 自 读 出 相应 的 部 分 。 因 此 其 性 能 


很 高 。 
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图 8.1 RAIDO 


由 于 RAIDO 不 提供 数据 元 余 , 因 此 一 旦 数据 被 损坏 ,将 无 法 得 到 恢复 。 只 要 其 中 的 任 
何 一 块 磁盘 出 现 故障 ,整个 系统 将 无 法 正常 工作 。 采 用 多 个 磁盘 的 系统 的 可 靠 性 比 采 用 单 
个 大 容量 磁盘 的 可 靠 性 要 低 很 多 。 

RAID0 适用 于 需要 高 带宽 磁盘 访问 的 场合 ,例如 视频 处 理 和 剪辑 ,超级 计算 等 。 因 为 
在 这 种 应 用 中 ,性 能 和 容量 可 能 比 可 靠 性 更 重要 。 


8.3.2 RAID1 


RAID1 是 最 基本 的 一 种 元 余 磁 盘 阵 列 , 称 为 镜像 磁盘 (mirroring 或 shadowing)。 其 核 
心思 想 是 为 所 有 的 磁盘 数据 提供 一 份 元 余 的 备份 ,如 图 8. 2 所 示 。 这 种 磁盘 阵列 所 需要 的 
磁盘 的 总 数 是 采用 镜像 前 磁盘 个 数 的 两 倍 。 每 当 把 数据 写 人 磁盘 时 ,都 要 将 该 数据 也 写 人 
其 镜像 盘 。 因 而 在 系统 中 所 有 的 数据 都 有 两 份 。 

当 从 该 磁盘 阵列 读 取 数 据 时 ,磁盘 及 其 镜像 盘 可 独立 地 同时 工作 ,由 最 先 读 出 数据 的 磁 
盘 提 供 数据 。 这 个 盘 对 于 该 访问 请 求 的 排队 时 间 、 寻 道 时 间 和 旋转 延迟 的 总 和 最 小 。 所 以 
RAID1 能 实现 快速 的 读 取 操 作 。 对 于 写 人 操作 ,虽然 镜像 的 两 个 磁盘 都 要 写 和 人, 但 因为 可 
并 行进 行 ,而 且 不 需要 计算 校 验 信息 ,所 以 其 速度 比 级 别 更 高 的 RAID 都 快 。 

如 果 某 个 磁盘 出 现 了 故障 ,就 由 其 镜像 盘 提 供 数 据 ,系统 仍 能 继续 工作 ,只 是 降低 了 规 
格 而 已 。 数 据 的 恢复 也 很 简单 ,只 要 从 正常 工作 的 磁盘 拷贝 相应 的 数据 即 可 ,不 需要 进行 数 
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据 重建 计算 。 当 然 ,出 故障 后 管理 员 应 尽快 用 好 盘 把 故障 盘 换 下 来 ,否则 在 系统 降低 了 规格 
的 情况 下 , 若 再 发 生 故 障 , 系 统 就 月 溃 了 。 

因为 需要 两 套 磁盘 ,所 以 RAID1 的 实现 成 本 最 高 。 但 其 原理 和 设计 简单 ,是 所 有 元 余 
磁盘 阵列 中 最 简单 的 。 


图 8.2 RAID1 


8.3.3 RAID2 


RAID2 是 存储 器 式 的 磁盘 阵列 。 之 所 以 有 这 样 的 名 称 ,是 因为 它 是 按 Hamming 纠 错 
码 的 思路 来 构建 的 。 图 8. 3 是 含 4 个 数据 盘 的 RAID2 示意 图 ,每 个 数据 盘存 放 所 有 数据 字 
的 一 位 , 按 位 交叉 存放 , 即 Disk0 存放 所 有 数据 字 的 第 0 位 ,Diskl 存放 第 1 位 ，…… ,以 此 类 
推 。 它 需要 三 个 磁盘 来 存放 Hamming 纠 错 码 。 图 中 数据 盘 的 每 一 行 构成 一 个 字 , 而 纠 错 
码 盘 中 的 相应 行 则 是 该 字 的 Hamming 码 。 例 如 ,BO 一 B3 构成 字 B, 其 Hamming 纠 错 码 
(ECC) 是 Bx~Bz。 每 当 往 数据 盘 写 入 数据 时 ,就 为 之 形成 Hamming 码 。 而 每 当 从 数据 盘 
读 出 数据 时 ,把 其 Hamming 码 也 读 出 来 ,用 于 判断 数据 是 否 有 错 。Hamming 码 具有 纠正 
一 位 错误 和 检测 两 位 错误 的 能 力 。 如 果 出 现 了 一 位 错误 ,就 可 以 立即 加 以 纠正 。 


ECC/Ax ECC/Ay ECC/4z 


B0 B1 B2 B3 ECC/Bx ECC/By ECC/Bz 
C0 Cl C2 C3 ECC/Cy ECC/Cz 
D0 Dl D2 D3 ECC/Dx, ECC/ ECC/Dx 
字 4=40-43 字 B=B0~B3 字 4 的 ECC= 4x~4z 字 B 的 ECC= Bx~Bz 
字 C= C0-C3 字 D=D0~D3 字 C 的 ECC= Cx~Cz 字 D 的 ECC= Dx~Dz 

图 8.3 RAID2 


RAID2 所 需 的 元 余 盘 是 用 来 存放 Hamming 码 的 ,其 个 数 为 logsm 级 ,m 是 数据 盘 的 个 
数 , 也 就 是 数据 字 的 位 数 。 对 于 32 位 的 情况 来 说 , 宛 余 盘 的 个 数 是 7。 可 以 看 出 ,在 数据 盘 
的 个 数 较 少 时 ,元 余 盘 占 磁盘 总 数 的 比例 是 比较 高 的 ,效率 低下 。 而 当 数 据 盘 较 多 时 ,系统 
的 规模 会 变 得 很 庞大 。 另 外 ,现在 的 磁盘 大 多 都 在 自己 内 部 已 有 纠 错 码 。 

虽然 在 RAID 的 分 级 上 有 这 一 级 ,但 实际 上 并 没有 商业 化 的 产品 。 


输入 输出 承 统 


8.3.4 RAID3 


RAID3 即位 交叉 奇偶 校 验 磁 盘 阵列 (Bitrinterleaved Parity) 。 

由 于 当 某 个 磁盘 出 故障 时 ,磁盘 控制 器 本 身 能 够 很 容易 地 发 现 是 哪个 磁盘 出 错 , 所 以 不 
用 像 RAID2 那样 采用 复杂 的 Hamming 码 . 仅 采用 奇偶 校 验 就 够 了 。 图 8.4 是 RAID3 的 
示意 图 。 图 中 的 校 验 盘 专门 用 于 存放 数据 盘 中 相应 数据 的 奇偶 校 验 。 例 如 A 是 数据 
A0~A3 的 奇偶 校 验 , Bu 是 数据 B0 一 B3 的 校 验 ,…… 。 在 数据 写 入 磁盘 时 ,为 每 行 数据 
形成 奇偶 校 验 位 并 写 人 校 验 盘 。 在 读 出 数据 时 ,如 果 控 制 器 发 现 某 个 磁盘 出 故障 ,就 可 以 根 
据 故 障 盘 以 外 的 所 有 其 他 盘 中 的 正确 信息 恢复 故障 盘 中 的 数据 ,这 是 通过 异 或 运算 来 实现 
的 。 即 使 故障 盘 为 校 验 盘 ,也 可 以 照 此 处 理 。 


奇偶 校 验 
产生 器 


Wy 
D0 D1 D2 D3 
条 带 0 条 带 1 条 带 2 条 带 3 、3 
图 8.4 RAID3 


这 是 一 种 细 粒 度 的 磁盘 阵列 , 即 采 用 的 条 带宽 度 较 小 ,其 至 可 以 是 1 个 字 节 或 1 位 。 由 
于 是 细 粒 度 的 ,所 以 对 于 绝 大 多 数 的 1/O 请 求 .都 需要 磁盘 阵列 中 的 所 有 磁盘 为 之 服务 ( 例 
如 , 读 取 图 8.4 的 A0 一 A3) .因而 能 够 获得 很 高 的 数据 传输 率 , 这 种 磁盘 阵列 对 大 数据 量 的 
读 写 具有 很 大 的 优越 性 。 其 缺点 是 不 能 同时 进行 多 个 1/O 请 求 的 处 理 ,对 多 个 小 规模 的 
I/O 请 求 来 说 表现 较 差 。 

不 管 数据 盘 有 多 少 个 ,RAID3 只 需要 一 个 校 验 盘 , 校 验 空 间 开 销 比 较 小 。 


8.3.5 RAID4 


RAID4 是 块 交叉 奇偶 校 验 磁盘 阵列 (Block-interleaved Parity) 。 

许多 应 用 程序 中 磁盘 读 写 都 是 小 规模 的 访问 。 对 于 这 些 应 用 来 说 ,磁盘 阵列 最 好 能 同 
时 处 理 多 个 小 规模 访问 请 求 。 采 用 粗 粒度 的 磁盘 阵列 就 能 实现 这 一 目标 , 即 采 用 比较 大 的 
条 带 , 以 块 为 单位 进行 交叉 存放 和 计算 奇偶 校 验 ,这 就 是 RAID4, 如 图 8.5 所 示 。 图 中 A0 一 
A3 是 数据 块 ,Ausw 是 数据 块 A0 一 A3 的 奇偶 校 验 码 ,其 余 以 此 类 推 。 注 意 : 这 里 的 A0 一 
A3 与 图 8.4 中 的 A0~A3 不 同 。 图 8.4 中 的 A0 一 A3 是 位 或 字 节 ,而 这 里 的 是 数据 块 。 

由 于 磁盘 中 各 扇 区 都 有 自己 的 检 错 码 , 所 以 完全 可 以 让 每 个 磁盘 独立 地 进行 读 操 作 ,从 
而 提高 单位 时 间 完 成 的 读 操作 的 数量 。 对 于 读 取 操作 ,每 次 只 需 访 问 数 据 所 在 的 磁盘 。 仅 
在 磁盘 出 现 故 障 时 , 才 会 去 读 校 验 盘 ,并 进行 数据 的 重建 。 

对 于 写 人 操作 ,由 于 要 重新 计算 校 验 码 ,所 以 差不多 要 访问 所 有 的 磁盘 ,以 读 出 旧 值 。 
这 对 磁盘 访问 的 速度 有 很 大 的 影响 。 幸 运 的 是 我 们 可 以 采用 如 图 8. 6 所 示 的 捷径 来 提高 速 
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度 , 即 要 写 人 新 数据 A0' 时 , 先 读 出 旧 值 A0 和 旧 的 奇偶 校 验 Auss ,然后 对 它们 进行 异 或 运 
算 ,计算 出 新 的 奇偶 校 验 Aus ,最 后 把 A0' 和 Auas 写 和 人 磁盘。 虽然 这 要 进行 两 次 读 和 两 
次 写 ,但 这 比 读 出 全 部 旧 值 还 是 节省 了 不 少时 间 。 特 别 是 当 数 据 盘 个 数 较 多 的 时 候 更 是 
如 此 。 


图 8.6 ”RAID4 的 写 操 作 过 程 


除了 能 有 效 地 处 理 小 规模 访问 外 ,RAID4 还 能 跟 RAID3 一 样 快速 处 理 大 规模 访问 ,但 
其 控制 比较 复杂 。 与 RAID3 一 样 ,RAID4 的 校 验 空 间 开 销 也 比较 小 。 


8.3.6 RAIDS 


RAID5 是 块 交 又 分 布 奇 偶 校 验 磁 盘 阵列 (Block-interleaved Distributed Parity)。 

在 RAID4 中 ,所 有 的 写 人 操作 都 必须 读 和 写 校 验 盘 。 当 同时 处 理 多 个 小 规模 写 访问 
时 ,它们 都 必须 访问 校 验 盘 ,而 系统 中 的 校 验 盘 只 有 一 个 ,很 容易 成 为 瓶颈 。RAID5 通过 把 
校 验 信息 分 布 到 磁盘 阵列 中 的 各 个 磁盘 来 解决 这 个 问题 ,如 图 8.7 所 示 。 图 中 的 各 符号 与 
图 8.5 的 意义 相同 。 这 里 每 一 行 数据 块 的 校 验 块 被 依次 错开 ,循环 地 存放 到 不 同 的 盘 中 ,以 
达到 均匀 分 布 的 目的 。 

与 RAID3 和 RAID4 一 样 , RAID5 的 校 验 空间 开销 也 比较 小 。RAID5 除了 能 跟 
RAID3 一 样 快 地 处 理 大 规模 访问 、 能 跟 RAID4 一 样 快 地 处 理 小 规模 读 操 作 以 外 ,还 能 比 它 
们 都 更 快 地 处 理 小 规模 写 操作 。 但 其 控制 器 是 经 典 RAID(RAID1 一 RAID5) 中 最 复杂 的 。 


8.3.7 RAID6 


RAID6 是 P 十 Q 双 校 验 磁 盘 阵 列 。 
上 述 奇 偶 校 验 磁盘 阵列 只 是 在 一 个 盘 出 现 故障 的 情况 下 , 仍 能 继续 正常 工作 和 恢复 数 
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据 。 随 着 元 余 磁盘 阵列 规模 的 增加 和 应 用 领域 的 扩展 ,有 时 需要 系统 能 够 容忍 两 个 磁盘 出 
错 。P 十 Q 双 校 验 磁 盘 阵 列 可 以 做 到 这 一 点 。 它 在 RAID5 的 基础 上 增加 了 一 个 独立 的 校 
验 信 息 , 放 在 另 一 个 校 验 盘 中 ,如 图 8. 8 所 示 。 所 以 它 的 校 验 空间 开销 是 RAID5 的 两 倍 。 
图 8.6 中 的 计算 捷径 在 RAID6 中 也 是 可 以 使 用 的 ,只 是 现在 要 计算 两 个 校 验 : P 和 Q , 访 
问 磁盘 的 次 数 也 从 4 次 增加 到 6 次 。 
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图 8.8 RAID6 


RAID6 很 适合 于 重要 数据 的 保存 。 
8.3.8 RAID10 与 RAIDO1 


RAID10 又 称 为 RAID1 十 0,RAID01 又 称 为 RAID0 十 1. 它 们 都 是 RAID0 与 RAID1 相 

的 结果 ,其 区 别 在 于 先 做 什么 , 先 镜像 后 条 带 存放 ,还 是 先 条 带 后 镜像 存放 ? 假设 共有 
8 个 磁盘 ,那么 由 于 需要 镜像 ,就 相当 于 只 有 4 个 盘 可 用 来 存放 数据 ,另外 4 个 盘 作为 镜像 
盘 。RAID1 十 0 是 先进 行 镜像 (RAID1) ,然后 再 进行 条 带 存放 (RAID0) ,如 图 8. 9 所 示 。 即 
把 盘 分 为 4 组 ,组 内 做 镜像 ,组 之 间 按 条 带 存放 。RAID0 十 1 是 先进 行 条 带 存放 (RAID0)， 
然后 再 进行 镜像 存放 (RAID1) ,如 图 8. 10 所 示 , 即 组 内 按 条 带 存放 .组 之 间 做 镜像 。 


8.3.9 RAID 的 实现 与 发 展 


RAID 可 以 达到 很 高 的 吞吐 率 ,同时 又 能 从 故障 中 恢复 数据 ,所 以 具有 很 高 的 可 用 性 。 
RAID 在 外 存储 系统 中 所 起 的 作用 越 来 越 大 ,并 得 到 广泛 应 用 。 目 前 世界 上 已 有 几 十 家 主 
要 的 磁盘 阵列 厂商 在 生产 和 销售 各 种 级 别 的 RAID 产品 。 其 中 ,处 于 领导 地 位 的 主要 有 
HP、DEC 和 DG 等 公司 。 
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图 8.10 ”RAID0 十 1, 先 条 带 存 放 后 镜像 


实现 盘 阵 列 的 方式 主要 有 三 种 : 

(1) 软件 方式 , 即 阵列 管理 软件 由 主机 来 实现 。 其 优点 是 成 本 低 , 缺 点 是 要 过 多 地 占用 
主机 时 间 ,并 且 带 宽 指标 上 不 去 。 

(2) 阵列 卡 方式 , 即 把 RAID 管理 软件 固化 在 1/O 控制 卡 上 ,从 而 可 不 占用 主机 时 间 ， 
一 般 用 于 工作 站 和 PC。 

(3) 子 系统 方式 ,这 是 一 种 基于 通用 接口 总 线 的 开放 式 平台 ,可 用 于 各 种 主机 平台 和 网 
络 系统 。 


在 计算 机 系统 中 ,各 子 系统 之 间 可 以 通过 总 线 来 实现 连接 。 总 线 的 优点 是 成 本 低 、 简 
单 。 通 过 定义 统一 的 互 连 接口 ,就 可 以 很 容易 地 将 各 种 设备 连接 起 来 ,甚至 可 以 在 采用 相同 
总 线 的 计算 机 之 间 进 行 外 设 的 互 换 连接 和 使 用 。 由 于 总 线 是 在 多 台 外 设 之 间 共 享 同一 组 连 
接线 ,所 以 其 实现 成 本 较 低 。 

总 线 的 主要 缺点 在 于 它 是 由 不 同 的 外 设 分 时 共享 的 ,形成 了 信息 交换 的 瓶颈 ,从 而 限制 
了 系统 中 总 的 1/O 吞吐 量 。 当 系统 中 所 有 1/O 操作 都 必须 通过 总 线 时 ,总线 的 带宽 限制 问 
题 就 变 得 和 存储 器 的 带宽 限制 问题 一 样 严重 了 ,有 时 还 可 能 更 严重 。 
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8.4.1 总 线 的 设计 


总 线 设计 存在 很 多 技术 难点 ,一 个 重要 原因 是 总 线 上 信息 传送 的 速度 极 大 地 受 限 于 各 
种 物理 因素 ,如 总 线 的 长 度 、 设 备 的 数目 \ 信 号 的 强度 等 ,这 些 物 理 因素 限制 了 总 线性 能 的 提 
高 。 另 外 ,我 们 一 方面 要 求 /O 操作 响应 快 , 男 一 方面 又 要 求 高 吞吐 量 ,这 可 能 造成 设计 需 
求 上 的 冲突 。 

与 计算 机 中 其 他 子 系统 的 设计 一 样 ,总 线 的 设计 取决 于 需要 达到 的 性 能 和 实现 成 本 。 
表 8.2 给 出 了 设计 总 线 时 需要 考虑 的 一 些 问 题 。 


表 8.2 总 线 的 主要 特性 


特 性 高 性 能 低 价格 

总 线 宽度 独立 的 地 址 和 数据 总 线 数据 和 地 址 分 时 共用 同一 套 总 线 

数据 总 线 宽度 | 越 宽 越 快 (例如 : 64 位 ) 越 窄 越 便宜 (例如 : 8 位 ) 

传输 块 大 小 | 块 越 大 总 线 开销 越 小 单字 传送 更 简单 

总 线 主 设备 | 多 个 (需要 仲裁 ) 单个 (无 需 仲 裁 ) 

分 离 事务 etn 不 采用 ,因为 持续 连接 成 本 更 低 ,而 且 延 迟 
总 线 带 宽 更 小 

定时 方式 同步 异步 


显然 , 表 中 前 三 个 观点 是 非常 明确 的 。 采 用 独立 的 地 址 和 数据 线 ,更 宽 的 数据 总 线 以 及 
成 块 的 数据 传输 都 将 提高 总 线 的 性 能 。 当 然 , 这 同时 也 带 来 了 成 本 的 提高 。 

总 线 主 设备 的 数量 是 要 仔细 考虑 的 问题 之 一 。 总 线 主 设备 是 指 能 够 启动 总 线 活动 的 设 
备 , 例 如 CPU 就 是 一 种 总 线 主 设备 。 当 总 线 上 连接 有 多 个 总 线 主 设备 时 ,就 需要 由 总 线 仲 
裁 机 制 来 确定 由 哪个 主 设备 来 控制 和 使 用 总 线 。 仲 裁 机 制 通常 采用 固定 优先 权 ( 例 如 菊花 
链 仲裁 ) 或 者 相对 公平 的 随机 选取 机 制 来 分 配 总 线 的 控制 权 。 

在 有 多 个 主 设备 的 情况 下 ,如 果 不 采用 传统 的 持续 占用 总 线 的 方法 ,而 改 用 包 交 换 , 就 
能 提高 总 线 带宽 。 其 基本 思想 是 将 总 线 事务 分 成 请 求 和 应 答 两 部 分 。 在 请 求 和 应 答 之 间 的 
空闲 时 间 内 ,总线 可 以 供给 其 他 1/O 使 用 。 采 用 这 种 技术 的 总 线 称 为 分 离 事务 总 线 (Split 
Transaction Bus) ,也 称 为 流水 总 线 (Pipelined Bus)、 悬挂 总 线 (Pended Bus) 或 者 包 交 换 总 
线 (Packet-switched Bus) 等 。 

图 8. 11 是 分 离 事务 总 线 工 作 过 程 的 时 序 图 。 以 读 操作 为 例 , 读 操作 被 分 为 两 部 分 ， 
@ 包 含 地 址 的 读 请 求 , @ 包 含 数据 的 存储 器 应 答 。 每 个 操作 的 这 两 部 分 用 标识 来 区 分 ,以 
便 CPU 和 存储 器 能 够 知道 哪个 应 答 与 哪个 请 求 相 对 应 。 当 发 出 读 请 求 、 存 储 器 根据 地 址 
去 读数 据 字 时 ,分离 事 务 总 线 被 释放 ,人 允许 其 他 主 设 备 使 用 。 分 离 事务 总 线 有 和 较 高 的 带宽 ， 
但 是 它 的 数据 传送 延迟 通常 比 独占 总 线 方法 的 大 。 

定时 方式 有 同步 和 异步 两 种 ,它们 各 有 特色 。 

同步 总 线 的 控制 线 中 包含 一 个 时 钟 ,总 线 上 所 有 设备 所 有 的 通信 操作 都 以 该 时 钟 为 基 
准 。 这 种 总 线 不 仅 速度 快 ,而 且 成 本 低 。 但 同步 总 线 有 两 个 缺点 : 由 于 时 钟 通过 长 距离 
传输 后 会 扭曲 ,因而 同步 总 线 不 能 用 于 长 距离 的 连接 。 特 别 是 对 于 高 速 同 步 总 线 来 说 ,更 是 


计算 机 系统 结 攀 载 程 (第 2 版) 


如 此 。@ 总 线 上 的 所 有 设备 都 必须 以 同样 的 时 钟 频 率 工作 。 虽 然 有 的 同步 总 线 上 可 以 连接 
不 同 速度 的 设备 ,但 其 工作 频率 必须 以 最 慢 的 设备 为 基准 。CPU- 存 储 器 总 线 通常 采用 同步 
异步 总 线 上 没有 统一 的 参考 时 钟 , 每 个 设备 都 有 各 自 的 定时 方法 。 总 线 上 的 发 送 设 备 
和 接收 设备 采用 握手 协议 。 异 步 总 线 能 够 比较 容易 地 连接 各 种 不 同 的 设备 ,而 且 由 于 不 是 
用 统一 的 时 钟 来 定时 的 ,因而 也 就 不 存在 时 钟 扭曲 和 同步 的 问题 ,所 以 其 传输 距离 可 以 比较 
长 。 很 多 1/O 总 线 都 采用 异步 总 线 。 
同步 总 线 通常 比 异 步 总 线 快 ,因为 它 避 免 了 传输 时 握手 协议 的 额外 开销 。 选 择 同步 总 
线 还 是 异步 总 线 , 不 仅 要 考虑 数据 带宽 ,而 且 要 考虑 传输 距离 以 及 可 以 连接 的 设备 数量 。 一 
般 来 说 ,如 果 设 备 的 类 型 较 少 且 距 离 较 近 , 则 宜 采 用 同步 总 线 ;否则 ,就 宜 采 用 异步 总 线 。 
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图 8.11 分 离 事务 总 线 


8.4.2 总 线 标 准 和 实例 


1/O 总 线 是 计算 机 系统 中 连接 设备 的 接口 。 制 定 总 线 标准 是 非常 重要 的 ,因为 只 要 计 
算 机 和 I/O 设备 的 设计 都 满足 相同 的 标准 ,那么 任意 一 台 1/O 设备 就 可 以 与 任意 一 台 计 算 
机 相连 接 。I/O 总 线 标准 就 是 定义 如 何 将 设备 与 计算 机 进行 连接 的 文档 。 

当 某 些 计 算 机 成 为 主流 机 型 被 广泛 应 用 时 .其 I/O 总 线 可 能 会 成 为 事实 上 的 标准 。 例 
如 PDP-11 的 UniBus 和 IBM PC-AT 的 ISA 总 线 就 是 如 此 。 有 了 时 标准 也 来 自 某 些 I/O 设 
备 的 制造 商 ,例如 Ethernet 就 是 由 制造 商 合作 形成 的 标准 。 如 果 标 准 被 市 场 接受 ,它们 将 
被 ANSI\ISO 或 IEEE 等 标准 化 组 织 所 采纳 ,并 最 终 成 为 推荐 标准 。 另 外 ,行业 协会 也 可 能 
制定 标准 ,例如 PCI 就 是 一 种 行业 协会 标准 。 

表 8.3 列 出 了 4 种 常见 的 并 行 W/O 总 线 的 一 些 典 型 特征 。 表 8.4 列 出 了 在 嵌入 式 系统 
中 使 用 较 多 的 4 种 串 行 1O 总 线 的 一 些 典型 特征 。 表 8. 5 列 出 了 在 服务 器 系统 中 使 用 的 
CPU- 存 储 器 互 连 系统 的 一 些 典型 特征 。 


表 8.3 几 种 常用 的 并 行 1/O 总 线 
IDE/Ultra ATA SCSI PCI PCLX 
数据 宽度 /b 16 8 或 16 32 或 64 32 或 64 


10(Fast) 
20(Ultra) 
时 钟 频率 /MHz 最 高 100 40( Ultra2) 33 或 66 66,100 或 133 
80(CUltra3) 
160( Ultra4) 
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IDE/Ultra ATA SCSI PCI 
总 线 主 设备 数量 三 多 个 多 个 
峰值 带宽 / (Mb/s) 200 320 533 
同步 方式 异步 异步 同步 
标准 无 ANSI X3. 131 无 和 于 


表 8.4 几 种 常用 的 串 行 MO 总 线 


Ke 1-wire RS-232 SPI 
数据 宽度 /b 1 1 多 1 
信号 线 数量 2 1 9 或 25 3 
时 钟 频率 /MHz 0.4 一 10 异步 0.04 或 异步 异步 
总 线 主 设备 数量 多 个 多 个 多 个 多 个 
峰值 带宽 / (Mb/s) 0.4~3.4 0.014 0.192 1 
同步 方式 异步 异步 异步 异步 
标准 无 无 EIA, ITU-T V.21 无 


表 8.5 几 种 CPU- 存 储 器 互 连 系统 


HP HyperPlane Crossbar IBM SP Sun Gigaplane-XB 
数据 宽度 /b 64 128 128 
时 钟 频率 /MHz 120 111 83.3 
总 线 的 主 设备 数 多 个 多 个 艰难 
每 端口 峰值 带宽 /(Mb/s) 960 1700 1300 
总 峰值 带宽 / (Mb/s) 7680 14 200 10 667 
同步 方式 同步 同步 同步 
标准 无 无 无 


对 比 表 8. 3 和 表 8.4 可 以 发 现 串 行 总 线 和 并 行 总 线 的 结构 特点 和 性 能 上 的 差距 。 由 于 
并 行 总 线 上 可 以 并 行 传输 的 数据 传输 线 较 多 ,所 以 可 以 获得 较 大 的 峰值 带宽 。 而 串 行 总 线 
主要 使 用 在 嵌入 式 系统 中 。 表 8. 5 中 所 列 的 服务 器 采用 了 交叉 开关 ,其 中 的 每 条 总 线 可 以 
连接 最 多 4 个 处 理 器 或 存储 控制 器 ,而 这 些 总 线 则 是 通过 交叉 开关 互 连 起 来 的 。 


8.4.3 与 CPU 的 连接 
下 面 来 看 一 看 1/O 总线 与 CPU 的 连接 。1/O 总 线 的 物理 连接 方式 有 两 种 选择 ,一 种 是 
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连接 到 存储 器 上 , 另 一 种 是 连接 到 Cache 上 。 一 般 来 说 ,前 者 更 常见 一 些 ,本 小 节 将 讨论 这 
种 方式 。 图 8. 12 是 一 种 典型 的 组 织 结构 。 在 一 些 低 成 本 的 系统 中 ,1/O 总 线 往 往 就 是 
CPU- 主 存 总 线 , 此 时 总 线 上 的 I/O 命令 将 影响 CPU 的 访 存 ,例如 取 指 令 。 


< | CPU- 主 存 总 线 > 


T es 主 存储 器 


1 
IO 控制 器 总 线 适 配器 VO 控制 器 


I 下 
证 


IO 控制 器 IO 控制 器 


磁盘 | | 磁盘 CD 
图 8.12 典型 的 总 线 连接 


CPU 对 1/0 设备 的 编 址 有 两 种 方式 。 最 常用 的 方式 是 “存储 器 映射 IO”, 也 称 为 I/O 
设备 统一 编 址 方式 。 在 这 种 方法 中 ,将 一 部 分 存储 器 地 址 空间 分 配给 1/O 设备 ,用 load 指 
令 和 store 指令 对 这 些 地 址 进行 读 写 将 引起 1/O 设备 的 输入 和 输出 操作 。 另 外 ,还 可 以 将 
一 部 分 存储 空间 留 出 用 于 设备 控制 ,对 这 一 部 分 地 址 空间 进行 写 操作 就 是 向 设备 发 出 控制 
命令 。 进 行 读 操 作 则 是 读 取 设备 状态 信息 等 。 

另 一 种 1/O 设备 的 编 址 方式 是 I/O 设备 独立 编 址 ,并 在 CPU 中 设置 专用 的 1/O 指令 
来 访问 它们 。 例 如 ,在 Intel 80x86 和 IBM 370 等 计算 机 中 都 设置 有 1/O 指令 。 采 用 这 种 方 
式 时 ,CPU 需要 发 出 一 个 标志 信号 来 指出 所 访问 的 是 I/O 设备 还 是 主 存 。 

CPU 与 外 部 设备 进行 输入 输出 的 方式 可 分 为 4 种 : 程序 查询 中断.DMA ,通道 等 。 这 
些 在 计算 机 组 成 原理 的 课程 中 已 经 学 过 ,这 里 不 再 详细 介绍 。 

DMA 控制 器 是 一 块 在 存储 器 和 1/O 设备 之 间 直 接 传输 数据 的 硬件 ,其 操作 可 以 与 
CPU 执行 其 他 任务 并 行进 行 。 它 是 总 线 上 的 一 种 主 设备 ,在 获得 总 线 使 用 权 后 ,能 控制 总 
线 进行 数据 传输 ,这 样 就 减轻 了 CPU 的 负担 。 

但 是 ,在 DMA 方式 中 ,每 次 DMA 传输 完成 后 ,还 是 要 中 断 CPU 当前 的 工作 ,让 CPU 
转 去 执行 相应 的 处 理 程序 。 为 了 进一步 减少 CPU 处 理 1/O 的 负担 ,可 以 设置 专门 的 处 理 
机 ,把 所 有 对 1/O 操作 的 管理 全 部 接管 过 去 ,这 就 是 采用 通道 处 理 机 。 


输入 输出 系统 


8.5 通道 处 理 机 


8.5.1 通道 的 作用 和 功能 


在 大 型 计算 机 系统 中 ,如 果 仅 采用 程序 控制 .中 断 和 DMA 这 三 种 基本 的 输入 输出 方式 
来 管理 设备 ,就 会 带 来 以 下 两 个 问题 ， 

(1) 所 有 外 设 的 输入 输出 工作 均 由 CPU 承担 ,CPU 的 计算 工作 经 常 被 打 断 而 去 处 理 输入 
输出 事务 ,不 能 充分 发 挥 CPU 的 计算 能 力 , 对 于 高 性 能 的 CPU 来 说 更 是 如 此 。 虽 然 采 用 
DMA 方式 能 减少 对 CPU 的 打扰 ,但 每 次 传输 的 初始 化 等 工作 仍然 需要 由 CPU 来 完成 。 

(2) 大 型 计算 机 系统 的 外 设 虽 然 很 多 ,但 同时 工作 的 机 会 不 是 很 多 。 如 果 为 每 一 台 设 
备 都 配置 一 个 接口 ,不仅 接 口 的 数量 很 多 ,而 且 利 用 率 低下 。 特 别 是 DMA 接口 ,其 硬件 成 
本 很 高 ,而 连接 DMA 接口 的 磁盘 或 磁带 机 等 一 般 并 不 同时 工作 。 

在 大 型 计算 机 系统 中 ,外 设 的 数量 一 般 比较 多 ,其 种 类 .工作 方式 和 速度 等 也 都 有 比较 
大 的 差别 。 为 了 把 对 外 设 的 管理 工作 从 CPU 中 分 离 出 来 ,使 CPU 摆脱 繁重 的 输入 输出 负 
担 , 也 为 了 使 设备 能 共享 输入 输出 接口 ,从 IBM360 系列 机 开始 ,普遍 采用 了 通道 技术 , 即 由 
一 种 称 为 通道 的 专用 处 理 机 来 专门 负责 整个 计算 机 系统 的 输入 输出 工作 。 通 道 处 理 机 只 能 
执行 有 限 的 一 组 输入 输出 指令 。 

大 型 计算 机 系统 可 以 有 多 个 通道 ,每 个 通道 可 以 连接 多 个 设备 控制 器 ,而 每 个 控制 器 又 
可 以 管理 一 台 或 多 台 外 设 (参考 图 8. 15) 。 这 样 就 形成 了 一 个 典型 的 由 CPU .通道 .设备 控 
制 器 、 外 设 构成 的 4 级 层次 结构 的 输入 输出 系统 。 

一 般 来 说 ,通道 的 功能 包括 以 下 几 个 方面 : 

(1) 接收 CPU 发 来 的 1O 指令 ,并 根据 指令 要 求 选择 指定 的 外 设 与 通道 相连 。 

(2) 执行 通道 程序 , 即 从 主 存 中 逐条 取出 通道 指令 ,对 通道 指令 进行 译 码 ,并 根据 需要 
向 被 选中 的 设备 控制 器 发 出 各 种 操作 命令 。 

(3) 给 出 外 设 中 要 进行 读 / 写 操作 的 数据 所 在 的 地 址 ,如 磁盘 存储 器 的 柱 面 号 、 磁 头号 、 
扇 区 号 等 。 

(4) 给 出 主 存 缓冲 区 的 首 地 址 。 这 个 缓冲 区 用 来 暂时 存放 从 外 设 输入 的 数据 或 者 将 要 
输出 到 外 设 中 去 的 数据 。 

(5) 控制 外 设 与 主 存 缓冲 区 之 间 的 数据 传送 的 长 度 . 即 对 传送 的 数据 个 数 进行 计数 ,并 
判断 数据 传送 是 否 结束 。 

(6) 指定 传送 工作 结束 时 要 进行 的 操作 。 例 如 ,将 外 设 的 中 断 请 求 及 通道 的 中 断 请 求 
送 往 CPU 等 。 

(7) 检查 外 设 的 工作 状态 是 否 正常 ,并 将 该 状态 信息 送 往 主 存 指定 单元 保存 。 

(8) 在 数据 传输 过 程 中 完成 必要 的 格式 变换 ,例如 ,把 字 拆 分 为 字 节 ,或 者 把 字 节 装配 
成 字 等 。 

通道 的 主要 硬件 包括 

(1) 寄存 器 : 数据 缓冲 寄存 器 , 主 存 地 址 计数 器 ,传输 字 节 数 计数 器 ,通道 命令 字 寄 存 
器 ,通道 状态 字 寄 存 器 等 。 
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(2) 控制 逻辑 : 分 时 控制 ,地 址 分 配 ,数据 传送 ,数据 装配 和 拆 分 等 。 

通道 对 外 设 的 控制 通过 输入 输出 接口 和 设备 控制 器 进行 。 通 道 与 设备 控制 器 之 间 一 般 
采用 标准 的 输入 输出 接口 来 连接 。 通 道 通过 标准 接口 把 操作 命令 送 到 设备 控制 器 ,设备 控 
制 器 解释 并 执行 这 些 通道 命令 ,完成 命令 指定 的 操作 。 设 备 控制 器 能 够 记录 外 设 的 状态 ,并 
把 状态 信息 送 往 通 道 和 CPU。 


8.5.2 通道 的 工作 过 程 


用 户 通过 调用 通道 来 完成 一 次 数据 输入 输出 的 过 程 如 图 8. 13 所 示 。CPU 执行 程序 和 
通道 执行 通道 程序 的 时 间 关 系 如 图 8. 14 所 示 。 


目 态 程序 管理 程序 通道 程序 


前 
1 
| 
on 1 | 
卜 
上 | | 通道 程序 
| 时 | A 编制 通道 程序 i 
全 | 
称 吕 1oc 交换 长 度 | | 
J 
IE EST ETTT 无 链 通 道 指 令 
lo 中断 处 理 程序 
[| 一 一 一 mms 
图 8.13 ”通道 完成 一 次 数据 传输 的 主要 过 程 
司 ~ 
请 求 输入 输出 响应 IO 
ee 
运行 目 要 
a 志 [ 于] 1 | 站 
CPU | | 上 | | 
运行 | | | 1 | 
运行 JO | 
wi 编制 ， | 要 记 或 例外 
通道 程序 ! ! 情况 处 理 
启动 WO 通道 | 
1 1 
1 1 
-| 运行 存放 在 主 存 | 
mr| Wo | 


8.14 通道 程序 .管理 程序 和 用 户 程序 的 执行 时 间 关系 
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利用 通道 完成 一 次 数据 传输 的 主要 过 程 分 为 以 下 三 步 : 

(1) 在 用 户 程序 中 使 用 访 管 指令 进入 管理 程序 ,由 管理 程序 来 编制 一 个 通道 程序 ,并 启 
动 通道 。 

输入 输出 指令 是 管 态 指令 ,用 户 在 目 态 程序 中 不 能 直接 使 用 这 些 指 令 , 只 能 在 目 态 程序 
中 安排 要 求 输入 输出 的 广义 指令 ,调用 操作 系统 的 管理 程序 来 实现 。 广 义 指令 由 访 管 指令 
和 若干 个 参数 组 成 ,如 图 8. 13 所 示 。 它 的 “入 口 ? 参 数 给 出 了 对 应 于 此 广义 指令 的 管理 程序 
的 入 口 。 当 目标 程序 执行 到 该 访 管 指令 时 ,会 产生 自愿 访 管 中 断 。CPU 响应 此 中 断后 , 转 
向 该 管理 程序 入 口 ,进入 管 态 。 

管理 程序 根据 广义 指令 所 提供 的 参数 来 编制 通道 程序 ,这 些 参 数 包 括 设备 号 .交换 数据 
在 主 存 中 的 起 始 地 址 、 交 换 数据 的 个 数 等 。 通 道 程序 编制 好 后 , 放 到 主 存 中 与 这 个 通道 相对 
应 的 通道 程序 缓冲 区 中 ,通道 程序 的 入 口 地 址 被 放 到 主 存 中 的 通道 地 址 单元 。 之 后 ,管理 程 
序 执行 一 条 “启动 /O” 的 指令 来 启动 通道 开始 工作 ,通道 开始 进入 选择 设备 期 。 

启动 IO 指令 是 一 条 主要 的 输入 输出 指令 ,属于 特权 指令 。 它 首先 判断 所 要 使 用 的 通 
道 和 子 通道 是 否 在 线 且 空闲 。 如 果 是 ,就 从 主 存 中 与 该 通道 对 应 的 通道 地 址 单元 中 取出 通 
道 程 序 地 址 ,并 按 这 个 地 址 去 取 第 一 条 通道 指令 。 如 果 取 出 的 通道 指令 没有 错误 ,再 选择 指 
定 的 控制 器 和 设备 。 如 果 被 选择 的 设备 是 在 线 的 ,就 向 它 发 启动 命令 。 设 备 被 启动 后 ,将 向 
通道 发 回回 答 信息 ,如果 设备 的 回答 是 一 个 全 “0” 字 节 , 就 表示 这 台 设 备 已 经 接受 并 执行 了 
启动 命令 ,设备 的 启动 过 程 也 就 全 部 完成 了 ,通道 选择 设备 期 结束 。 在 上 述 过 程 中 ,如 果 任 
何 一 个 地 方 不 正确 ,就 表示 该 指令 没有 执行 成 功 , 形 成 相应 的 条 件 码 并 结束 启动 过 程 。 通 道 
通过 检测 这 些 条 件 码 ,就 能 够 知道 设备 为 什么 没有 启动 成 功 。 

(2) 通道 处 理 机 执行 通道 程序 ,完成 指定 的 数据 输入 输出 工作 。 

从 图 8. 14 可 以 看 出 ,通道 处 理 机 执行 通道 程序 与 CPU 执行 用 户 程序 是 并 行 的 。 通 道 
被 启动 后 ,CPU 就 可 以 退出 管理 程序 ,返回 用 户 程 序 中 继续 执行 原来 的 程序 ,而 通道 则 进入 
通道 数据 传送 期 ,开始 进行 与 设备 的 数据 传送 。 当 通道 处 理 机 执行 完 通 道 程 序 的 最 后 一 条 
通道 指令 一 一 无 链 通道 指令 ?时 ,通道 的 数据 传输 工作 就 全 部 结束 了 。 通 道 进入 数据 传送 
结束 期 。 

(3) 通道 程序 结束 后 向 CPU 发 中 断 请 求 。 

数据 传送 完成 后 ,通道 向 CPU 发 IO 中 断 请 求 。CPU 响应 该 中 断 请 求 ,再 次 进入 管 
态 , 调 用 相应 的 管理 程序 对 该 中 断 请 求 进行 处 理 。 如 果 是 正常 结束 ,管理 程序 就 进行 必要 的 
登记 等 工作 ;如 果 是 故障 、 错 误 等 异常 情况 , 则 进行 异常 处 理 。 然 后 ,CPU 返回 目 态 ,继续 进 
行 目 态 程序 的 执行 。 

这 样 ,在 每 一 次 输入 输出 中 ,CPU 只 需要 调用 两 次 管理 程序 ,就 能 大 大 减少 对 用 户 程 序 
的 打扰 。 当 系统 中 有 多 个 通道 同时 工作 时 ,CPU 与 多 种 不 同类 型 不同 速度 的 外 设 可 以 充 
分 并 行 地 工作 。 


8.5.3 通道 种 类 


通道 有 三 种 类 型 : 字 节 多 路 通道 、 选 择 通 道 和 数组 多 路 通道 。 它 们 分 别 采用 不 同 的 信 
息 传送 方式 ,并 各 有 特色 ,适用 于 不 同 的 设备 。 它 们 与 CPU ,设备 控制 器 和 外 设 的 连接 关系 
如 图 8. 15 所 示 。 
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选择 通道 总 线 
通道 
磁盘 
控制 器 
CPU (人 有) 
字 节 多 通道 总 线 
路 通道 
设备 设 
主 存 控制 器 控制 器 
设备 设备 设备 
数组 多 通道 总 线 
路 通道 
设备 名 设备 
内 部 总 线 控制 器 控制 器 
设备 设备 设备 
图 8.15 三 种 类 型 的 通道 与 CPU .设备 控制 器 和 外 设 的 连接 关系 


1. 字 节 多 路 通道 

字 节 多 路 通道 (Byte Multiplexer Channel) 是 一 种 简单 的 共享 通道 ,用 于 连接 多 台 低 速 
或 中 速 的 设备 。 这 些 设 备 一 般 是 以 字 节 为 宽度 进行 输入 输出 的 ,而 且 相 邻 的 两 次 传送 之 间 
有 较 长 时 间 的 等 待 。 字 节 多 路 通道 以 字 节 交 叉 的 方式 分 时 轮流 地 为 它们 服务 。 

字 节 多 路 通道 可 以 包含 多 个 子 通道 ,每 个 子 通道 连接 一 台 设 备 控制 器 。 由 于 子 通道 的 
数量 可 以 很 多 ,如 果 每 个 通道 都 有 自己 的 一 套 硬件 ,那么 所 需 的 硬件 就 会 很 多 。 因 此 ,目前 
一 般 是 让 硬件 的 控制 部 分 由 所 有 子 通道 共享 ,而 寄存 器 部 分 则 是 每 个 子 通 道 有 自己 独立 的 
一 套 。 为 了 节省 硬件 ,这 些 寄存 器 可 以 由 主 存单 元 来 代替 。 

每 个 子 通道 最 少 需要 一 个 字 节 的 缓冲 寄存 器 ,一 个 状态 /控制 寄存 器 以 及 指明 地 址 的 少 
量 硬件 。 与 各 个 子 通道 有 关 的 参数 ,如 主 存 数据 缓冲 区 地 址 、 交 换 的 字 节 个 数 等 都 存放 在 主 
存 固定 单元 中 。 当 通道 在 逻辑 上 与 某 台 设备 连接 时 ,就 从 主 存 相应 的 单元 中 把 有 关 参 数 取 
出 来 ,根据 主 存 数据 缓冲 区 地 址 访问 主 存 , 读 出 或 写 和 人 一 个 字 节 ,并 将 剩余 交换 字 节 数 减 1， 
将 主 存 数据 缓冲 区 地 址 加 1, 指 向 下 一 个 数据 的 地 址 。 在 这 些 工作 都 完成 之 后 ,就 将 通道 与 
该 设备 在 逻辑 上 断 开 。 

2. 选择 通道 

像 磁盘 存储 器 这 样 的 高 速 外 设 需要 很 高 的 数据 传输 率 , 因 此 应 该 设置 专门 的 通道 ,在 一 
段 时 间 内 只 被 一 台 高 速 外 设 独 占 使 用 ,这 就 是 选择 通道 (Selector Channel) 。 当 有 多 台 高 速 
设备 请 求 传送 数据 时 ,选择 通道 是 按照 一 定 的 规则 (例如 速度 高 的 具有 优先 权 ) 对 要 服务 的 
设备 进行 选择 。 一 旦 选中 某 一 设备 ,通道 就 进入 * 忙 ?状态 ,直到 该 设备 的 数据 传输 工作 全 部 
完成 为 止 。 处 理 完 后 ,再 重新 选择 。 

选择 通道 的 硬件 包括 5 个 寄存 器 ,格式 变换 部 件 以 及 通道 控制 部 件 。 这 5 个 寄存 器 是 : 
数据 缓冲 寄存 器 ,设备 地 址 寄存 器 、 主 存 地 址 计数 器 、 交 换 字 节 数 计数 器 ,设备 状态 /控制 寄 
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存 器 。 格 式 变换 部 件 用 于 在 主 存 和 设备 之 间 进 行 字 与 字 节 的 拆 分 和 装配 。 

3. 数组 多 路 通道 

数组 多 路 通道 (Block Multiplexer Channel) 可 以 看 成 字 节 多 路 通道 与 选择 通道 相 结 合 
的 产物 。 与 选择 通道 一 样 , 它 也 适用 于 高 速 设备 ,但 它 不 像 选择 通道 那样 一 次 就 把 所 选 设备 
的 数据 全 部 传送 完 ,而 是 在 传送 完 固定 长 度 的 一 个 数据 块 ( 例 如 512 字 节 ) 之 后 ,就 重新 选择 
别 的 设备 。 因 此 它 是 以 数据 块 为 单位 .分 时 轮流 地 为 多 台 高 速 设 备 提供 服务 。 

数组 多 路 通道 之 所 以 能 够 并 行 地 为 多 台 高 速 设备 服务 ,是 因为 虽然 其 所 连 设 备 的 传输 
速率 很 高 ,但 寻 址 等 辅助 操作 时 间 很 长 。 以 从 磁盘 存储 器 读 出 一 个 文件 的 过 程 为 例 , 数 据 读 
出 过 程 可 以 分 为 三 个 步骤 : 磁头 定位 , 找 扇 区 和 读 出 数据 。 磁 头 定位 是 指 把 磁头 移动 到 磁 
盘 上 记录 该 文件 的 磁道 上 ,所 花费 的 时 间 称 为 定位 时 间或 寻 道 时 间 ,一 般 不 超过 10ms; 找 扇 
区 是 指 在 磁头 定位 后 等 待 磁头 转动 到 记录 该 文件 的 起 始 扇 区 的 位 置 ,所 花费 的 时 间 称 为 等 
待 时 间 。 目 前 磁盘 存储 器 的 平均 等 待 时 间 一 般 小 于 6ms。 由 于 高 速 磁盘 存储 器 的 数据 传输 
率 已 经 达到 100MB/s 以 上 ,因此 读 出 一 个 扇 区 (512 个 字 节 ) 只 需要 几 微 秒 的 时 间 。 通 常 把 
磁头 定位 和 找 扇 区 的 时 间 加 起 来 称 为 磁盘 的 寻 址 时 间 , 从 上 面 的 分 析 可 以 看 出 ,磁盘 存储 器 
的 寻 址 时 间 要 比 数据 传输 时 间 长 两 个 数量 级 以 上 。 

如 果 对 这 些 外 设 采 用 选择 通道 ,通道 在 选择 设备 后 ,始终 只 为 该 设备 服务 ,那么 在 其 寻 
址 过 程 中 ,就 一 直 处 于 等 待 状态 ,造成 很 大 的 浪费 。 数 组 多 路 通道 正 是 为 了 解决 这 一 问题 而 
提出 来 的 。 

数组 多 路 通道 在 向 一 台 高 速 设备 发 出 定位 命令 后 ,就 立即 从 逻辑 上 与 该 设备 断 开 ,直到 
定位 完成 时 再 进行 连接 ,发 出 找 扇 区 命令 后 再 一 次 断 开 ,直到 开始 数据 传送 。 因 此 ,数组 多 
路 通道 的 实际 工作 方式 是 : 通道 在 为 一 台 高 速 设 备 传送 数据 时 ,可 以 有 多 台 高 速 设 备 在 定 
位 或 者 在 找 扇 区 。 


8.5.4 通道 流量 分 析 


通道 流量 是 指 一 个 通道 在 数据 传送 期 间 ,单位 时 间 内 能 够 传送 的 数据 量 , 所 用 单位 一 般 
为 字 节 / 秒 。 通 道 流量 也 称 为 通道 吞吐 率 .通道 数据 传输 率 等 。 一 个 通道 在 满 负荷 工作 状态 
下 的 流量 称 为 通道 最 大 流量 。 通 道 最 大 流量 主要 与 通道 的 种 类 、 通 道 选择 设备 一 次 所 用 的 
时 间 以 及 传送 一 个 字 节 所 用 的 时 间 等 因素 有 关 。 

为 便于 讨论 ,下 面 给 出 一 些 后 面 要 用 到 的 参数 的 定义 。 

Ts: 设备 选择 时 间 。 从 通道 响应 设备 发 出 的 数据 传送 请 求 开 始 , 到 通道 实际 为 这 台 

设备 传送 数据 所 需要 的 时 间 。 

To: 传送 一 个 字 节 所 用 的 时 间 。 

p: 在 一 个 通道 上 连接 的 设备 台数 ,上 且 这 些 设备 同时 都 在 工作 。 

n: 每 台 设 备 传送 的 字 节 数 ,这 里 假设 每 台 设备 传送 的 字 节 数 都 相同 。 

。&: 数组 多 路 通道 传输 的 一 个 数据 块 中 包含 的 字 节 数 。 在 一 般 情况 下 ,.k 二 n。 对 于 
磁盘 \ 磁 带 等 磁 表面 存储 器 ,通常 k= 二 512。 

。 了 T: 通道 完成 全 部 数据 传送 工作 所 需要 的 时 间 。 

1. 字 节 多 路 通道 

字 节 多 路 通道 是 分 时 为 多 台 低 速 和 中 速 外 设 服务 的 .其 数据 传送 过 程 如 图 8. 16 所 示 。 


Oo 
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其 中 Dr 表示 第 ; 台 设 备 的 第 j 个 数据 ,1<i<p,1<j<n。 


| 到 To|Ts To| a [Ts To| Ts TolTs To| hid | 7 Ws | 到 区 | 环卫 | bi [zo| 
Dunl pl [Dl ps) pl | pl 1 | Dl pl | p,, 
Ns 
传输 各 设备 的 第 一 个 字 节 传输 各 设备 的 第 二 个 字 节 传输 各 设备 的 第 个 字 节 
TBvrE 


图 8.16 字 节 多 路 通道 数据 传送 过 程 


通道 每 连接 一 台 外 设 , 只 传送 一 个 字 节 ,然后 又 选择 与 男 一 台 设 备 连接 ,并 传送 一 个 字 
节 , 如 此 反复 。p 台 设 备 每 台 传 送 个 数据 总 共 所 需 的 时 间 为 
Tayre = (Ts+ Tp)Xpxn (8.2) 
其 最 大 流量 为 


村 pn ea 
fax-BYyTE CT | Toa 元 十 To (8 3) 


根据 字 节 多 路 通道 的 工作 原理 可 知 , 它 的 实际 流量 是 连接 在 这 个 通道 上 的 所 有 设备 的 
数据 传输 率 之 和 , 即 


JavrE = Sp (8.4) 
其 中 f; 为 第 i 台 设 备 的 实际 数据 传输 率 , 下 同 。 
2. 选择 通道 
选择 通道 在 一 段 时 间 内 只 能 单独 为 一 台 高 速 外 设 服务 , 当 这 台 设 备 的 数据 传送 工作 全 
部 完成 后 ,通道 才能 为 另 一 台 设备 服务 。 选 择 通道 实际 上 是 逐个 为 物理 上 连接 的 几 台 高 速 


外 设 服务 的 。 
选择 通道 的 工作 过 程 如 图 8. 17 所 示 。 
[i To Tp2*…Ton| Ts To Tp2*…Tor| 和 [a Ti 7pz…7p 
D | D, | .| D, 
Tseuecr 


图 8.17 选择 通道 数据 传送 过 程 


选择 通道 的 工作 过 程 如 图 8. 17 所 示 。 其 中 D; 表示 通道 正在 为 第 i 台 设 备 服务 ,Top 一 
Tm 二 … 二 Th 一 Tp。p 台 设 备 每 台 传 送 n 个 数据 总 共 所 需 的 时 间 为 


Tsmect = pTs+ pnTop (8.5) 
其 最 大 流量 为 
We Pa 1 (8.6) 
MAX-SELECT Pr B47, 


3. 数组 多 路 通道 

数组 多 路 通道 的 工作 过 程 如 图 8. 18 所 示 。 

通道 每 连接 一 台 高 速 设备 ,传送 一 个 数据 块 ( 设 为 个 字 节 ) ,传送 完成 后 ,又 与 男 一 台 
高 速 设备 连接 ,再 传送 一 个 数据 块 ,…… 。 因 此 在 图 8. 18 中 ,在 每 一 个 Ts 之 后 ,都 有 个 
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Tp(Tn 王 Tm 一 … 二 Tm 一 Tp)。p 台 设 备 每 台 传 送 n 个 数据 总 共 所 需 的 时 间 为 
Tarock = buls + paTs (8.7) 
其 最 大 流量 为 
a pn ! (8. 8) 


es 十 pzTp 于 十 To 


| Te To Teen | a | | 


D | pb; “el 万 | D, 


TBuock 
一 一 | 


图 8.18 数组 多 路 通道 数据 传送 过 程 


对 于 选择 通道 和 数组 多 路 通道 ,在 一 段 时 间 内 ,一 个 通道 只 能 为 一 台 设备 传送 数据 。 此 
时 通道 的 实际 流量 就 等 于 该 设备 的 数据 传输 率 。 因 此 ,这 两 种 通道 的 实际 流量 就 是 连接 在 
这 个 通道 上 的 所 有 设备 中 数据 流量 最 大 的 那 一 个 。 


p 
feock 反 maxfi 
(8.9) 


fserect < max/; 
为 了 保证 通道 能 够 正常 工作 而 不 丢失 数据 ,各 种 通道 的 实际 流量 应 该 不 大 于 通道 的 最 
大 流量 , 即 应 该 满足 下 列 不 等 式 。 


JavrE < f sax-BYTE 
farock SE fuaxBLock (8. 10) 


fseLEcT < f MAX-SELECT 
两 边 的 差 值 越 小 ,通道 的 利用 率 就 越 高 。 当 两 边 相等 时 ,通道 处 于 满 负荷 工作 状态 。 为 
防止 数据 丢失 ,在 实际 设计 通道 的 最 大 流量 时 ,还 应 留 有 一 定 的 余 量 。 


8.6 JIL/O 与 操作 系统 


操作 系统 的 作用 之 一 是 在 多 进程 之 间 进 行进 程 保护 ,这 种 保护 包括 存储 器 访问 和 I/O 
操作 两 个 方面 。 由 于 I/O 操作 主要 是 在 外 设 和 存储 器 之 间 进 行 ,所 以 操作 系统 必须 保证 这 
些 1/O 操作 的 安全 性 。 


8.6.1 DMA 和 虚拟 存储 器 


在 具有 虚拟 存储 器 的 计算 机 中 ,存在 DMA 是 使 用 虚拟 地 址 还 是 物理 地 址 来 传输 数据 
的 问题 。 如 果 使 用 物理 地 址 进行 DMA 传输 , 则 存在 以 下 两 个 问题 : 

(1) 当 数 据 缓冲 区 大 小 超过 一 页 时 ,由 于 缓冲 区 所 使 用 的 多 个 页 面 在 物理 存储 器 中 不 
一 定 是 连续 的 ,所 以 传输 可 能 会 出 现 问题 。 

(2) 当 DMA 正在 存储 器 和 缓冲 区 之 间 传 输 数据 时 ,操作 系统 从 存储 器 中 移出 (或 重 定 
位 ) 一 些 页 面 .那么 ,DMA 将 会 在 存储 器 中 错误 的 物理 页 面 上 进行 数据 传输 。 
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解决 这 些 问题 的 一 种 方法 是 使 操作 系统 在 1/O 的 传输 过 程 中 确保 DMA 设备 所 访问 的 
页 面 都 位 于 物理 存储 器 中 ,这 些 页 面 被 称 为 钉 (pinned) 在 了 主 存 中 。 

为 了 确保 数据 传输 安全 ,操作 系统 通常 是 把 用 户 数 据 复制 至 内 核 地 址 空间 ,然后 在 内 核 
地 址 空间 与 1/O 设备 之 间 传 送 数 据 。 不 过 ,这 种 方法 的 开销 很 大 。 

另 一 种 方法 是 采用 “虚拟 DMA” 技 术 , 它 允许 DMA 设备 直接 使 用 虚拟 地 址 ,并 在 DMA 
传送 过 程 中 由 硬件 将 虚拟 地 址 转换 为 物理 地 址 。 这 样 ,I/O 使 用 的 缓冲 区 在 虚拟 地 址 空间 
中 就 是 连续 的 ,但 在 物理 存储 器 中 是 可 以 分 散 存 放 的 。 

在 采用 虚拟 DMA 的 情况 下 ,如 果 进 程 在 内 存 中 被 移动 ,操作 系统 应 该 能 够 及 时 地 修改 
相应 的 DMA 地 址 表 。 图 8. 19 为 采用 了 虚拟 DMA 的 I/O 连接 示意 图 。 其 中 的 地 址 转换 
寄存 器 组 用 于 获得 DMA 页 面 的 物理 地 址 。 对 于 将 由 DMA 进行 传送 的 每 一 个 虚 页 ,需要 
用 一 个 地 址 转换 寄存 器 来 存放 其 相应 的 物理 地 址 以 及 保护 位 。 


CPU- 主 存 总 线 


地 址 转换 寄存 器 组 


主 存储 器 


DMA 控 制 器 
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图 8.19 虚拟 DMA 的 1/O 连接 


8.6.2 I/O 和 Cache 数据 一 致 性 


大 家 知道 ,Cache 会 使 一 个 数据 出 现 两 个 副本 : 一 个 在 Cache 中 , 另 一 个 在 主 存 中 。 如 
果 这 两 个 副本 的 值 不 相同 ,就 出 现 了 Cache 数据 不 一 致 的 问题 。 写 直达 法 由 于 同时 更 新 
Cache 和 存储 器 中 的 值 ,所 以 它 能 够 使 这 两 个 副本 保持 一 致 。 虽 然 写 回 法 只 把 新 数据 写 人 
Cache, 不 更 新 存储 器 ,但 该 新 数据 迟早 会 被 写 回 存储 器 ( 当 它 所 在 的 块 被 替换 时 ) ,并 最 终 
达到 一 致 的 。 

以 上 这 些 是 指 Cache 本 身 的 一 致 性 问题 。 如 果 把 1/O 设备 对 存储 器 的 读 写 操作 也 考 
虑 进来 ,情况 就 更 复杂 了 ,可 能 出 现 以 下 两 种 情况 : 

(1) 对 于 写 回 法 来 说 ,CPU 修改 了 Cache 的 内 容 后 ,由 于 存储 器 的 内 容 跟 不 上 Cache 
内 容 的 变化 ,1/O 系统 进行 输出 操作 时 所 看 到 的 数据 是 旧 值 。 

(2) 1/O 系统 进行 输入 操作 后 .存储 器 的 内 容 发 生 了 变化 ,但 CPU 在 Cache 中 所 看 到 
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的 内 容 依然 是 旧 值 。 

图 8. 20 对 此 进行 了 说 明 。 其 中 假设 Cache 采用 写 回 法 ,并 且 A’ 是 A 的 副本 ,B 是 B 
的 副本 。 在 图 8. 20(a) 中 ,Cache 中 的 内 容 与 存储 器 中 的 内 容 是 一 致 的 , 即 A" 一 A,B' 一 B。 
在 图 8. 20(b) 中 ,CPU 对 A 进行 了 写 和 人 ( 写 和 人 值 为 500) ,这 时 Cache 中 的 副本 A“ 被 改 为 了 
500, 但 因 采 用 写 回 法 ,存储 器 中 的 A 还 是 旧 值 。 如 果 这 时 进行 1/O 输出 操作 , 读 取 存 储 器 
中 的 值 ,那么 就 是 错误 的 。 在 图 8. 20(c) 中 ,I1/O 输入 操作 把 存储 器 中 B 的 值 改 为 400, 这 时 
Cache 中 的 B' 是 旧 值 。CPU 若 使 用 该 旧 值 ,就 会 出 现 错误 。 
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| 
| 
| 
| 
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4 4( 旧 值 ) A 1 
| HD) | LL | 
存储 器 : 存储 器 l 存储 器 a | 
B B B(400) 
(a) 4=4, B=B (b) 4' 隆 4，4 为 旧 值 (c) 8' 取 8B，B 为 旧 值 


图 8.20 Cache 与 主 存 内 容 不 一 致 的 情况 


图 8. 20 是 假设 把 1/O 连接 到 存储 器 上 的 情况 。 如 果 把 I/O 直接 连接 到 Cache 上 则 不 
会 产生 由 I/O 导致 的 数据 不 一 致 的 问题 。 在 这 种 情况 下 .所 有 1/O 设备 和 CPU 都 能 在 
Cache 中 看 到 最 新 的 数据 。 这 种 连接 的 问题 在 于 1/O 会 跟 CPU 竞争 访问 Cache, 在 进行 
I/O 时 ,会 造成 CPU 的 停顿 。 而 且 1/O 还 可 能 会 破坏 Cache 中 CPU 访问 的 内 容 , 因 为 I/O 
操作 可 能 导致 一 些 新 数据 被 加 入 Cache, 而 这 些 新 数据 可 能 在 近期 内 并 不 会 被 CPU 访问 。 
因此 ,许多 计算 机 还 是 选择 把 1/O 直接 连接 到 存储 器 上 ,把 存储 器 的 一 片区 域 作 为 1/O 缓 
冲 器 ,从 而 减少 对 CPU 的 打扰 ,并 设法 解决 数据 不 一 致 的 问题 。 

如 前 所 述 , 如 果 Cache 采用 写 直 达 法 ,存储 器 中 的 内 容 就 总 是 最 新 的 ,进行 1/O 输出 操 
作 不 会 有 内 容 不 一 致 的 问题 。 但 输入 操作 就 麻烦 一 些 , 需 要 处 理 好 内 容 的 一 致 性 问题 。 不 
管 Cache 是 采用 写 直 达 法 还 是 写 回 法 ,都 可 以 通过 以 下 方法 来 解决 内 容 的 一 致 性 问题 。 

(1) 软件 的 方法 。 

设法 保证 1/O 缓冲 器 中 的 所 有 块 都 不 在 Cache 中 。 具 体 做 法 有 两 种 ,一 种 是 把 1/0O 组 
冲 器 的 页 面 设置 为 不 可 进入 Cache, 在 进行 输入 操作 时 ,操作 系统 总 是 把 输入 的 数据 放 到 该 
页 面 。 另 一 种 方法 是 在 进行 输入 操作 之 前 .操作 系统 先 把 Cache 中 与 /O 缓冲 器 相关 的 数 
据 * 赶 出 ”Cache, 即 把 相应 的 数据 块 设置 为 “无 效 ” 状 态 。 当 然 ,如 果 是 采用 写 回 法 的 Cache， 
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而 且 该 数据 块 被 修改 过 ,就 还 需要 把 整 块 的 内 容 写 回 存储 器 。 

(2) 硬件 的 方法 。 

硬件 的 方法 是 在 进行 输入 操作 时 ,检查 相应 的 IO 地 址 (1/O 缓冲 器 中 的 单元 ) 是 否 在 
Cache 中 ( 即 是 否 有 数据 副本 )。 这 是 通过 把 这 些 1/O 地 址 与 Cache 中 的 标识 进行 比较 来 判 
断 的 。 为 了 使 这 些 比较 能 与 CPU 对 Cache 的 访问 并 行进 行 ,可 以 多 设置 一 套 完全 相同 的 标 
识 存储 器 。 如 果 发 现 1/O 地 址 在 Cache 中 有 匹配 ,就 把 相应 的 Cache 块 设置 为 “无 效 ”。 


习 题 8 
8.1 解释 以 下 名 词 。 
响应 时 间 可 靠 性 可 用 性 可 信和 性 
RAID 分 离 事务 总 线 通道 通道 流量 


虚拟 DMA 

8.2 RAID 有 哪些 分 级 ? 各 有 何 特点 ? 

8.3 同步 总 线 和 异步 总 线 各 有 什么 优 缺 点 ? 

8.4 通道 分 为 哪 三 种 类 型 ? 它们 分 别 为 哪 种 外 围 设备 服务 ? 

8.5 在 有 Cache 的 计算 机 系统 中 ,进行 I/O 操作 时 ,会 产生 哪些 数据 不 一 致 问 题 ? 如 
何 克 服 ? 

8.6 一 个 字 节 多 路 通道 连接 有 6 台 设 备 , 它 们 的 数据 传输 率 如 下 表 所 示 。 


设备 名 称 D， D; D， D, Ds Ds 


数据 传输 速率 /(B/ms) 50 50 40 25 25 10 


(1) 计算 该 通道 的 实际 工作 流量 。 

(2) 若 通道 的 最 大 流量 等 于 实际 工作 流量 , 求 通道 的 工作 周期 Ts 十 Top 。 

8.7 设 某 个 数组 多 路 通道 设备 的 选择 时 间 Ts 为 lws, 传 送 一 个 字 节 数 据 所 需 的 时 间 
To 为 11s, 一 次 传送 定 长 数据 块 的 大 小 为 512B。 现 有 8 台 外 设 的 数据 传输 速率 分 别 如 下 表 
所 示 , 问 哪些 外 设 可 连接 到 该 通道 上 正常 工作 ? 


设备 名 称 Di D， D， Di D; D; D; D， 


数据 传输 速率 /(B/ms) 1000 480 480 800 512 512 1024 1024 


8.8 有 8 台 外 设 的 数据 传输 速率 分 别 如 下 表 所 示 , 现 设计 一 种 通道 ,通道 可 实现 设备 
选择 时 间 Ts 一 21s, 数 据 传送 时 间 Tb 一 2ps。 


设备 号 1 多 4 久 6 7 8 


数据 传输 速率 /(B/ms) 500 240 100 75 50 40 14 10 


(1) 如 果 按 字 节 多 路 通道 设计 ,该 通道 的 最 大 流量 是 多 少 ? 若 希 望 从 8 台 外 设 中 至 少 
选择 4 台 外 设 同时 连接 到 该 通道 上 ,而 且 尽 量 多 连接 传输 速率 高 的 设备 ,那么 ,应 选择 哪些 
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外 设 连接 到 该 通道 上 ? 
(2) 如 果 按 数组 多 路 通道 设计 , 且 一 次 传送 定 长 数据 块 的 大 小 为 512B, 则 该 通道 的 最 着 


大 流量 是 多 少 ? 从 8 台 外 设 中 可 选择 哪些 外 设 连 接 到 该 通道 上 ? 

8.9 设 某 个 字 节 多 路 通道 的 设备 选择 时 间 Ts 为 9. 8ws, 传 送 一 个 字 节 的 数据 所 需 的 
时 间 To 为 0.2ps。 若 某 种 低速 外 设 每 隔 500ps 发 出 一 次 传送 请 求 ,那么 ,该 通道 最 多 可 连 
接 多 少 台 这 种 外 设 ? 

8.10 通道 型 1/O 系统 由 一 个 字 节 多 路 通道 A 两 个 数组 多 路 通道 Bl 和 B2 以 及 一 个 
选择 通道 C 组 成 。 其 中 ,通道 A 连接 两 个 子 通道 Al 和 A2,Al 和 A2 分 别 连接 8 台 低速 外 
设 ,B1、.B2 和 C 分 别 连接 5 台 高 速 外 设 。 各 外 设 的 数据 传输 速率 如 下 表 所 示 。 


通 道 通道 连接 的 各 外 设 的 数据 传输 速率 /(B/ms) 
字 节 多 路 子 通道 Al 64 56 56 20 20 20 10 10 
通道 A 子 通道 A2 56 30 30 30 30 30 30 20 
数组 多 路 通道 B1 512 512 512 256 256 
数组 多 路 通道 B2 256 256 512 256 512 
选择 通道 C 1024 512 512 512 512 


(1) 分 别 计算 通道 A、B1、B2 和 C 的 最 大 流量 至 少 为 多 大 才 不 会 丢失 传送 的 数据 ? 

(2) 若 I/O 系统 的 流量 为 主 存 带 宽 的 1/2, 则 主 存 带宽 应 达到 多 大 ? 

8.11 假设 在 一 个 计算 机 系统 中 ， 

(1) 每 页 为 32KB,Cache 块 大 小 为 128B; 

(2) 对 应 新 页 的 地 址 不 在 Cache 中 .CPU 不 访问 新 页 中 的 任何 数据 ; 

(3) Cache 中 95% 的 被 替换 块 将 再 次 被 读 取 ,并 引起 一 次 不 命中 ; 

(4) Cache 使 用 写 回 方法 ,平均 60% 的 块 被 修改 过 ; 

(5) 1/O 系统 缓冲 能 够 存储 一 个 完整 的 Cache 块 ; 

(6) 访问 或 不 命中 在 所 有 Cache 块 中 均匀 分 布 ; 

(7) 在 CPU 和 I/O 之 间 , 没 有 其 他 访问 Cache 的 干扰 ; 

(8) 无 I/O 时 ,每 100 万 个 时 钟 周期 内 有 18 000 次 不 命中 ; 

(9) 不 命中 开销 是 40 个 时 钟 周期 。 如 果 被 蔡 换 的 块 被 修改 过 . 则 再 加 上 30 个 周期 用 
于 写 回 主 存 ; 

(10) 假设 计算 机 平均 每 200 万 个 周期 处 理 一 页 。 

试 分 析 1/O 对 于 性 能 的 影响 有 多 大 。 


第 g 齐 


内 容 提要 

(1) 互 连 函数 ; 

(2) 互连网 络 的 结构 参数 与 性 能 指标 ; 

(3) 静态 互连网 络 ; 

(4) 动态 互连网 络 ; 

(5) 消息 传递 机 制 。 

互连网 络 (Interconnection Network) 是 一 种 由 开关 元 件 按照 一 定 的 拓扑 结构 和 控制 方 
式 构成 的 网 络 ,用 来 实现 计算 机 系统 中 节点 之 间 的 相互 连接 。 这 些 节 点 可 以 是 处 理 器 ,存储 
模块 或 其 他 设备 。 在 拓扑 上 ,互连网 络 是 输入 节点 到 输出 节点 之 间 的 一 组 互 连 或 映像 
(mapping)。 

互连网 络 已 成 为 SIMD 计算 机 和 MIMD 计算 机 的 关键 组 成 部 分 之 一 。 随 着 各 个 领域 
对 高 性 能 计算 的 要 求 越 来 越 高 ,多 处 理 机 和 多 计算 机 系统 的 规模 越 来 越 大 ,对 人 处理 器 之 间或 
处 理 器 与 存储 模块 之 间 的 通信 速度 和 灵活 性 的 要 求 也 越 来 越 高 。 因 此 , 它 对 计算 机 系统 的 
性 能 价格 比 有 着 决定 性 的 影响 。 

互连网 络 有 三 大 要 素 : 互 连 结 构 , 开 关 元 件 , 控 制 方式 。 各 种 互连网 络 主要 是 在 这 些 要 
素 方面 各 不 相同 。 


9.1 互 连 函 数 


互连网 络 是 输入 节点 到 输出 节点 之 间 的 一 组 互 连 .这 种 互 连 可 以 用 互 连 函 数 来 表示 。 
假设 互连网 络 有 N 个 输入 端 和 NN 个 输出 端 ,分 别 用 0,1,….,N 一 1 来 表示 , 则 互 连 函 数 表示 
了 输入 端 号 和 输出 端 号 的 连接 关系 。 


9.1.1 互 连 函 数 的 表示 方法 


用 变量 x 表示 输入 ( 设 x 二 0,1,….,N 一 1), 用 函数 f(x) 表示 输出 , 则 f(x) 表示 : 在 互 
连 函 数 f 的 作用 下 ,输入 端 z+ 连接 到 输出 端 f(x)。x 和 f(x) 可 以 用 二 进 制 表 示 , 也 可 以 用 
十 进 制 表示 。 

互 连 函 数 反 映 了 网 络 输 入 端 数组 和 输出 端 数 组 之 间 对 应 的 置换 关系 或 排列 关系 ,所 以 
互 连 函 数 有 时 也 称 为 置换 函数 (permutation) 或 排列 函数 。 
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可 以 用 更 直观 的 方法 来 表示 互连网 络 的 连接 ,例如 ,用 连 线 图 来 表示 互连网 络 所 实现 的 
连接 。 图 9. 1 就 是 一 个 例子 , 它 使 得 连接 情况 一 目 了 然 。 重 


有 的 互 连 函 数 f(x) 可 以 采用 循环 表示 法 , 即 (xo zi zz… zi )。 它 表示 
(Crzo) 一 Tiyzi) = za fxr) 一 To 
7 称 为 该 循环 的 长 度 。 
设 "一 log:N, 则 可 以 用 位 二 进 制 来 表示 N 个 输入 端 和 输出 端的 二 进 制 地 址 , 互 连 函 
数 表示 为 F(zu-izo-s…zlzo)。 


9.1.2 几 种 基本 的 互 连 函 数 


下 面 介绍 几 种 常用 的 基本 互 连 函 数 及 其 主要 特征 。 
1. 恒 等 函 数 
恒 等 函 数 所 实现 的 互 连 : 同 号 输入 端 和 输出 端 之 间 的 连接 。 其 函数 表达 式 为 


TCz Taizo) = TT "TIT 


2. 交换 函数 
交换 函数 所 实现 的 互 连 : 二 进 制 地 址 编码 中 第 & 位 互 反 的 输入 端 与 输出 端 之 间 的 连 
接 。 其 表达 式 为 
E(xniTn 2 ZHI TITo) = Tn Tae TH TTh-1 ZI1Z0 
交换 函数 主要 用 于 构造 立方 体 互连网 络 和 各 种 超 立方 体 互连网 络 。 它 共有 n= 二 logs N 
种 互 连 函 数 。N 为 节点 个 数 。 
当 N 二 8 时,n 二 3, 可 得 到 常用 的 立方 体 互 连 函 数 : 
Cubeo (zszizo) = ZeZio 
Cube (zzZzlizo) = xsX1xo 
Cube, (zzzlizo) = Xsx1xo 


其 变换 图 形 如 图 9. 1 所 示 ,结构 如 图 9. 2 所 示 。 


0 0 0 0 0 0 

1 5 1 > 1 1 1 

2 2 2 2 2 2 

3 0 3 3 3 

4 4 4 4 4 4 

5 os 5 5 5 5 

6 6 6 > < 6 6 

1 2 OO My 100 101 
人 a) Cubes 交 换 函 数 。(b) Cube1 交 换 函 数 。 (6) Cubes 交 换 函 数 

图 9.1 N=8 的 立方 体 交 换 函 数 图 9.2 立方 体 网 络 


3. 均匀 洗 牌 函数 

均匀 洗 牌 函数 (shuffle) : 将 输入 端 分 成 数目 相等 的 两 半 , 前 一 半 和 后 一 半 按 类 似 均匀 
混 洗 扑 克 牌 的 方式 交叉 地 连接 到 输出 端 (输出 端 相 当 于 混 洗 的 结果 , 见 图 9. 3(a)), 其 函数 
关系 可 表示 为 
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o (人 二 Tr-2Tn3""" TIToTnl 
即 把 输入 端的 二 进 制 编号 循环 左 移 一 位 ,就 变 成 了 其 所 要 连接 的 输出 端的 编号 。 
均匀 洗 牌 函数 (置换 ) 也 称 为 混 洗 函数 (置换 )。 
对 于 有 些 互 连 函 数 ( 设 为 *) ,还 可 以 定义 其 第 个 子 函数 和 第 k 个 超 函 数 。 它 们 分 别 是 
把 作用 于 输入 端的 二 进 制 编号 的 低 & 位 和 高 k 位 。 
例如 ,对 于 均匀 洗 牌 函数 ,其 第 & 个 子 函 数 是 


(CR 
即 把 输入 端的 二 进 制 编号 中 的 低位 循环 左 移 一 位 。 
均匀 洗 牌 函数 的 第 k 个 超 函 数 是 
OO a 0 = i i 
即 把 输入 端的 二 进 制 编号 中 的 高 上 位 循环 左 移 一 位 。 
显然 ,下 列 等 式 成 立 。 


= 
Wt 
对 于 任意 一 种 函数 f(x) ,如 果 存 在 g(x) ,使 得 
fx)» g(x) = I(zx) 
则 称 g(z) 是 f(z) 的 道 函数 , 记 为 f(z), 即 f°'(z) 二 g(x)。 
道 均匀 洗 牌 是 均匀 洗 牌 的 道 函 数 , 记 为 a7!, 它 所 实现 的 函数 是 


OT Tre" TiT0) 一 ToZrIZr2…Z1 
即 把 输入 端的 二 进 制 编号 循环 右 移 一 位 。 
当 N==8 时 ,有 
o(XsX1T0) 一 XT1Xoxs 
ae) (T2T1T0) 一 TX2ToX1 
OY (XsX1X0) 一 ZIZ2Zo 


Oo (zzzlizo) = Zoxsxl 


其 连接 图 分 别 如 图 9. 3 所 示 。 


mw 一 一 


wu-o 
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ww 
Un 
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人 均匀 洗 牌 函数 (b) 子 洗 牌 函数 o(2) 。 (6) 超 洗 牌 函数 co。 (4d) 逆 均 匀 洗 牌 函数 07 
图 9.3 N=8 的 均匀 洗 牌 函数 
从 图 中 可 以 看 出 , 道 均匀 洗 牌 和 均匀 洗 牌 的 连接 图 互 为 镜像 。 


均匀 洗 牌 和 逆 均 匀 洗 牌 是 两 种 十 分 有 用 的 互 连 函 数 , 用 它们 和 交换 开关 多 级 组 合 起 来 ， 
可 构成 Omega 网 络 和 道 Omega 网 络 。 
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4. 碟 式 函数 
蝶 式 互 连 函 数 (butterfly) 定 义 为 章 


B(l-iTe drm0) = Kom nLize 
即 把 输入 端的 二 进 制 编号 的 最 高 位 与 最 低位 互 换 ,就 得 到 了 其 所 要 连接 的 输出 端的 编号 。 
蝶 式 函数 的 第 个 子 函 数 是 
Bop (Tri "TET TR-2 TI1To) 一 Tn" TETOTE2 TITh 
即 把 输入 端的 二 进 制 编号 的 低位 中 的 最 高 位 与 最 低位 互 换 。 
蝶 式 函数 的 第 个 超 函 数 是 


pn (i) = a dG 
即 把 输入 端的 二 进 制 编号 的 高 位 中 的 最 高 位 与 最 低位 互 换 。 
显然 ,下 列 等 式 成 立 。 


BX) = Bn (X) = BCX) 
BY(X)=BwX)=X 
当 N==8 时 ,有 
B(xsxrizxo) = roxixz 
Be (zzZlZo) 二 Z2.Z01 
认 ” (zx2T1T0) = XT1X2X0 
图 9.4 给 出 了 N=8 的 蝶 式 函数 的 变换 图 形 。 与 均匀 混 洗 函 数 类 似 , 只 用 蝶 式 函数 不 
能 实现 任意 节点 之 间 的 连接 ,但 是 蝶 式 变换 与 交换 的 多 级 组 合 可 作为 构成 立方 体 多 级 网 络 
的 基础 。 


00 o0 00 o0 0 0 
1 1 1 1 1o 一 一 一 1 
2 Do 0 2 2 
3 3 3o0——o3 3 3 
4 4 40———o4 4 4 
5 5 5 5 5 
6 6 本 6o 0o6 
7o o7 70 o7 70 o7 

(a) B=p (b) Bo=po) (c) BO=p® 


图 9.4 N=8 的 蝶 式 函数 和 反 位 序 函 数 


5. 反 位 序 函 数 
反 位 序 函 数 的 定义 为 
p(TniTn 2 TT0) 一 ToT1'"" Tn_2 Tn 
即 把 输入 端 二 进 制 编号 的 各 位 的 次 序 颠 倒 过 来 , 便 得 到 了 其 所 连 输出 端的 编号 。 
反 位 序 函 数 的 第 & 个 子 函数 是 


DV CR) = 
即 把 输入 端的 二 进 制 编号 的 低 & 位 中 各 位 的 次 序 颠 倒 过 来 。 
反 位 序 函 数 的 第 个 超 函 数 是 
pa (Tu Tus VE WE Nt BR 


即 把 输入 端的 二 进 制 编号 的 高 位 中 各 位 的 次 序 颠 倒 过 来 。 
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显然 ,下 列 等 式 成 立 。 
Prd = pw (X) = p(X) 
《3 =pw(X)=X 
当 N= 二 8 时 ,有 
p(X2XT17T0) 一 ToZ1Z2 
Py (TsT1T0) 一 Z2ZoZl 
Pp (zaZliZo) 一 ZIZ2zo 
其 连接 图 如 图 9.4 所 示 。 
6. 移 数 函数 
移 数 函数 是 将 各 输入 端 都 错开 一 定 的 位 置 ( 模 N) 后 连 到 输出 端的 ,其 函数 式 为 
az) 一 (z+k) modN 0<zr<N- 1,0<k<N-1 
按 图 9. 5 的 画 法 ,本 式 中 的 x 十 k 表示 把 x 往 下 错开 k 个 位 置 后 送 输出 端 ,z 一 上 表示 把 
Zz 往 上 错开 k 个 位 置 后 送 输出 端 。 
还 可 以 将 整个 输入 数组 (将 输入 端 号 按 顺 序 排 列 ) 分 成 若干 个 子 数组 ,然后 在 子 数组 的 
范围 内 进行 移 数 置换 。 
7. PM21 函数 
PM2I 函数 中 的 P 和 M 分 别 表 示 加 (Plus) 和 减 (Minus) ,2I 表示 2'。 所 以 该 函数 又 称 
为 “加 减 2” 函 数 。 这 是 一 种 特殊 的 移 数 函 数 , 在 其 连接 图 中 (例如 图 9.6), 它 也 是 将 各 输入 
端 都 错开 一 定 的 位 置 ( 模 N) 后 连 到 输出 端的 ,其 函数 为 
PM24(x) = 一 (Zz 十 2 ) mod 六 
PM2-;(x) = (zz 一 2) mod 六 
其 中 ,0 二 x 二 NN 一 1,0 二 in 一 1,n 二 logs N,NN 为 节点 数 。 显 然 ,PM2I 互连网 络 共 有 2n 个 
互 连 函数 。 


0 0 0 0 0 0 0 0 0 0 
1 1 1 1 1 1 1 1 1 1 
2 2 2 2 2 2 2 2 人 
3 3 3 3 3 3 3 3 3 3 
4 4 4 4 4 4 4 4 4 4 
5 5 5 3 5 5 5 5 5 5 
6 6 6 6 6 6 6 6 6 6 
7 7 7 7 7 7 7 7 yl 交 
(a) 左 移 移 数 函数 厂 > ””(b) 右 移 移 数 函 数 皇 2 (a) PM2,0 (b) PM2, (©) PM2,, 
图 9.5 N=8 的 移 数 函数 图 9.6 N=8 的 PM2I 函数 


当 N==8 时 ,有 6 个 PM2I 函数 。 
PM2+o: (01234567) 
PM2-.: (76543210) 
PM2+: (0246)(1357) 
PM2-:: (6420)(7531) 
PM2+42: (0 4)(1 5)(2 6)(3 7) 
PM2_,: (4 0)(5 1)(6 2)(7 3) 
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图 9.6 画 出 了 其 中 三 个 函数 的 连接 图 。 
PM2I 函数 是 构成 数据 变换 网 络 的 基础 。 章 


阵列 计算 机 Illiac 人 采用 PM2;。 和 PM2:,s 构 成 其 互连网 络 ,实现 各 处 理 单元 之 间 的 
上 下 左右 互 连 , 如 图 9.7 所 示 。 


例 9.1 现 有 16 个 处 理 器 ,编号 分 别 为 0,1,…， A | 1 I 
15, 用 一 个 N 一 16 的 互连网 络 互 连 。 处 理 器 i 的 输出 t | 1 | 
通道 连接 互连网 络 的 输入 端 i, 处 理 器 i 的 输入 通道 4b lhl 6 llel 5 
连接 互连网 络 的 输出 端 i。 当 该 互连网 络 实现 的 互 连 B ' ' ' 
函数 分 别 为 二 gs 9 0 1 

(1) Cubes B | B B ] 

(2) PM2+s 3 4 15 

(3) PM2_。 本 下 了 

ee a 图 9.7 用 疹 数 数 构成 Illiac N 阵 
时 ,分 别 给 出 与 第 13 号 处 理 器 所 连接 的 处 理 器 号。 

解 


(1) 由 Cubes (zszzzizo) 一 E:zzzlzo, 得 Cubes(1101) 王 0101, 即 处 理 器 13 连接 到 处 理 
器 5。 

令 Cubes (zszzzizo) 王 1101 ,得 zszszizo 王 0101 , 故 与 处 理 器 13 相连 的 是 处 理 器 5。 

所 以 处 理 器 13 与 处 理 器 5 双向 互 连 。 

(2) 由 PM2+3:=) 十 23 mod 16 ,得 PM2+3:(13) 王 13 十 2: mod 16 王 5, 即 处 理 器 13 连接 到 
处 理 器 5。 

令 PM2+3(J) 一 /十 23 mod 16 一 13 ,得 j 一 5, 故 与 处 理 器 13 相连 的 是 处 理 器 5。 

所 以 处 理 器 13 与 处 理 器 5 双向 互 连 。 

(3) 由 PM2-_6(j)==j 一 2* mod 16 ,得 PM2_,(13) 王 13 一 2" 王 12, 即 处 理 器 13 连接 到 处 
理 器 12 。 

令 PM2_。,(J)=j 一 2" mod 16 二 13, 得 j= 二 14, 故 与 处 理 器 13 相连 的 是 处 理 器 14。 

所 以 处 理 器 13 连 至 处 理 器 12 ,而 处 理 器 14 连 至 处 理 器 13 。 

(4) 由 c(zszazizo) 一 zazizozs :得 co(1101) 一 1011, 即 处 理 器 13 连接 到 处 理 器 11。 

令 (zszrzzizo) 一 1101, 得 zszszizo 一 1110, 故 与 处 理 器 13 相连 的 是 处 理 器 14。 

所 以 处 理 器 13 连 至 处 理 器 11, 而 处 理 器 14 连 至 处 理 器 13 。 

(5) 由 c(o(Czszzzizo)) 一 Zizozszz ,得 co(1101)) 王 0111, 即 处 理 器 13 连接 到 处 理 器 7。 

令 o(c(zszszizo)) 一 1101, 得 zszszizo 一 0111, 故 与 处 理 器 13 相连 的 是 处 理 器 7。 

所 以 处 理 器 13 与 处 理 器 7 双向 互 连 。 


9.2 互连网 络 的 结构 参数 与 性 能 指标 


9.2.1 互连网 络 的 结构 和 参数 
互连网 络 通常 是 用 有 向 边 或 无 向 边 连 接 有 限 个 节点 的 图 来 表示 的 ,其 主要 结构 参数 包 


计算 胡 系 统 结 攀 裁 程 ( 茵 2 版 ) 


会 以 再 6 不 。 

1) 网 络 规模 N 

网 络 规模 (Network Size) 是 指 互连网 络 中 节点 的 个 数 。 它 表示 该 网 络 所 能 连接 的 部 件 
的 数量 。 网 络 规模 越 大 , 则 这 个 互连网 络 的 连接 能 力 越 强 ,就 能 连接 更 多 的 部 件 。 

2) 节点 度 

节点 度 (Node Degree)d 是 指 互连网 络 中 节点 所 连接 的 边 数 ( 通 道 数 ) ,包括 人 度 (In 
Degree) 和 出 度 (Out Degree) 。 进 入 节点 的 边 数 叫 入 度 ,从 节点 出 来 的 边 数 叫 出 度 。 

3) 节点 距离 

对 于 互连网 络 中 的 任意 两 个 节点 ,其 距离 是 指 从 一 个 节点 出 发 到 另 一 个 节点 终止 所 需 
要 跨越 的 边 数 的 最 小 值 。 

4) 网 络 直径 DD 

网 络 直径 (Network Diameter)D 是 指 互连网 络 中 任意 两 个 节点 之 间距 离 的 最 大 值 。 网 
络 中 任意 两 个 节点 之 间 传 送 的 信息 通过 的 边 数 都 不 会 大 于 网 络 直径 。 显 然 , 网 络 直径 应 当 
尽 可 能 的 小 。 

5) 等 分 宽度 0 

把 由 N 个 节点 构成 的 网 络 切 成 节点 数 相同 (N/2) 的 两 半 , 在 各 种 切 法 中 , 沿 切 口 边 数 
的 最 小 值 称 为 该 网 络 的 等 分 宽度 (Bisection Width) ,用 4 表示。 而 线 等 分 宽度 为 B=bXw。 
其 中 zw 为 通道 宽度 (用 位 数 表示 )。 该 参数 主要 反映 了 网 络 的 最 大 流量 。 

6) 对 称 性 

如 果 从 任意 节点 来 看 ,网 络 的 结构 都 是 相同 的 , 则 称 该 网 络 为 对 称 网 络 (Symmetric 
Network) 。 对 称 网 络 实现 比较 容易 ,编程 也 比较 容易 。 


9.2.2 互连网 络 的 性 能 指标 


时 延 (latency) 和 带宽 (bandwidth) 是 用 来 评估 互连网 络 性 能 的 两 个 基本 指标 。 

1) 通信 时 延 

通信 时 延 是 指 从 源 节点 到 目的 节点 传送 一 条 消息 所 需 的 总 时 间 , 它 由 以 下 4 部 分 构成 。 

Q@ 软件 开销 : 在 源 节点 和 目的 节点 用 于 收发 消息 的 软件 所 需 的 执行 时 间 。 

@ 通道 时 延 : 通过 通道 传送 消息 所 花 的 时 间 。 通 路 时 延 王 消息 长 度 / 通 道 带宽 。 

@ 选 路 时 延 : 消息 在 传送 路 径 上 所 需 的 一 系列 选 路 决策 所 需 的 时 间 开 销 。 

由 竞争 时 延 : 多 个 消息 同时 在 网 络 中 传送 时 ,会 发 生 争 用 网 络 资源 的 冲突 。 为 避免 或 
解决 争 用 冲突 所 需 的 时 间 就 是 竞争 时 延 。 

软件 开销 主要 取决 于 两 端 节 点 处 理 消 息 的 软件 内 核 。 通 道 时 延 通 常 由 瓶颈 链 路 的 通道 
带宽 决定 。 选 路 时 延 与 传送 路 径 上 的 节点 数 成 正比 。 竞 争 时 延 很 难 预 测 , 它 取决 于 网 络 的 
传输 状态 。 

2) 网 络 时 延 

网 络 时 延 是 指 通道 时 延 与 选 路 时 延 的 和 。 它 是 由 网 络 硬件 特征 决定 的 ,与 程序 行为 和 
网 络 传输 状态 无 关 。 而 软件 开销 和 竞争 时 延 则 与 程序 的 行为 有 关 。 

3) 端口 带宽 

对 于 互连网 络 中 的 任意 一 个 端口 来 说 .其 端口 带宽 是 指 单位 时 间 内 从 该 端口 传送 到 其 
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他 端口 的 最 大 信息 量 。 

在 对 称 网 络 中 ,端口 带宽 与 端口 位 置 无 关 。 网 络 的 端口 带宽 与 各 端口 的 端口 带宽 相同 。 
而 非 对 称 网 络 的 端口 带宽 则 是 指 所 有 端口 带宽 的 最 小 值 。 

4) 聚集 带宽 

网 络 的 聚集 带宽 (Aggregate Bandwidth) 是 指 网 络 从 一 半 节 点 到 另 一 半 节 点 ,单位 时 间 
内 能 够 传送 的 最 大 信息 量 。 例 如 ,HPS 是 一 种 对 称 网 络 ,网 络 规模 N 的 上 限 是 512 ,端口 带 
宽 是 40MB/s, 因 此 ,HPS 的 聚集 带宽 是 (40MB/sX512)/2 王 10. 24GB/s。 

5) 等 分 带宽 

与 等 分 宽度 对 应 的 切 平面 中 ,所 有 边 合 起 来 单位 时 间 所 能 传送 的 最 大 信息 量 称 为 该 网 
络 的 等 分 带宽 (Bisection Bandwidth) 。 


9.3 静态 互连网 络 


互连网 络 通常 可 以 分 为 两 大 类 : 静态 互连网 络 (Static Interconnection Network) 和 动 
态 互连网 络 (Dynamic Interconnection Network) 。 静 态 互 连 网 络 是 指 各 节点 之 间 有 固定 的 
连接 通路 . 且 在 运行 中 不 能 改变 的 网 络 。 而 动态 互连网 络 则 是 指 由 交换 开关 构成 .可 按 运行 
程序 的 要 求 动态 改变 连接 状态 的 网 络 。 

静态 互连网 络 比较 适合 于 构造 通信 模式 可 预测 或 可 用 静态 连接 实现 的 计算 机 。 线 性 阵 
列 结构 是 一 维 的 静态 互连网 络 ; 二 维 的 有 环 型 . 星 型 . 树 状 、 网 格 状 等 ;三 维 的 有 立方 体 等 ;三 
维 以 上 的 有 超 立 方 体 等 。 下 面 介 绍 几 种 静态 互连网 络 , 其 中 的 N 表示 网 络 的 规模 , 即 节 点 
的 个 数 。 

1. 线性 阵列 

这 是 一 种 一 维 的 网 络 , 其 中 N 个 节点 用 NN 一 1 条 链 路 连 成 一 行 ,如 图 9. 8(a) 所 示 。 其 
内 部 节点 的 度 4d 二 2, 端 节点 的 度 d 王 1。 直 径 D=N 一 1, 等 分 宽度 0=1。 线 性 阵列 是 最 简 
单 的 拓扑 结构 ,其 优点 是 实现 成 本 低 。 但 这 种 结构 不 对 称 ,而 且 当 N 较 大 时 ,直径 也 比较 
大 ,通信 效率 低 。 当 N 较 小 时 ,如 N=2 或 3, 实现 线性 阵列 是 相当 经 济 的 。 当 NN 比较 大 
时 ,就 不 应 采用 这 种 方案 了 。 

线性 阵列 与 总 线 的 区 别 是 很 大 的 .总 线 是 通过 切换 来 由 其 所 连接 的 节点 分 时 共享 使 用 
的 ,每 次 只 有 一 对 节点 可 以 使 用 总 线 。 而 线性 阵列 则 允许 多 个 “ 源 节点 -目的 节点 ”对 并 行 地 
使 用 其 不 同 的 部 分 (通道 ) 。 

2. 环 和 带 弦 环 

用 一 条 链 路 将 线性 阵列 的 两 个 端 节 点 连接 起 来 即 可 得 到 环 (图 9.8(b))。 环 可 以 单 向 
工作 ,也 可 以 双向 工作 。 它 是 对 称 的 ,节点 的 度 d 王 2。 双向 环 的 网 络 直径 D 王 N/2, 单 向 环 
的 网 络 直径 D=N 一 1。 环 的 等 分 宽度 0 一 2。 

在 环 的 基础 上 ,给 每 个 节点 增加 一 条 或 两 条 链 路 , 即 可 得 到 如 图 9. 8Cc) 和 图 9. 8(d) 所 
示 的 两 种 带 弦 环 。 其 节点 的 度 d 分 别 是 3 和 4。 增加 的 链 路 越 多 ,节点 度 越 高 .网 络 直径 就 
越 小 。 与 图 9.8(b) 相 比 .图 9. 8(c) 和 9.8(d) 的 网 络 直 径 分 别 由 8 减 至 5 和 3。 在 极端 情况 
下 ,如 图 9. 8(f) 所 示 的 全 连接 网 络 (Completely Connected Network) 的 节点 度 为 15, 直径 
为 Ts 
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(c) 度 为 3 的 带 弦 环 


(d) 度 为 4 的 带 弦 环 (与 liac 网 相同 ) (e) 循环 移 数 网 络 (人 ) 全 链接 
图 9.8 几 种 静态 互连网 络 


3. 循环 移 数 网 络 

图 9.8(e) 是 节点 数 为 16 的 循环 移 数 网 络 。 循 环 移 数 网 络 是 通过 在 环 上 增加 以 下 链 路 
构成 的 : 每 个 节点 到 所 有 与 其 距离 为 2 的 整数 寡 的 节点 之 间 都 增加 一 条 链 路 。 也 就 是 说 ， 
如 果 |j 一 计 二 27,r 二 0,1,2,…,n 一 1(n 二 logzNN), 则 节点 i 与 节点 j 连接 。 这 种 循环 移 数 网 
络 的 节点 度 为 d= 二 2n 一 1, 直 径 D==n/2, 网 络 规 模 N 一 2"。 

显然 ,与 节点 度 较 低 的 任何 带 弦 环 相 比 ,循环 移 数 网 络 都 具有 更 好 的 连接 特性 。 对 N=16 
的 情况 ,循环 移 数 网 络 的 节点 度 为 7, 直径 为 2。 它 的 复杂 性 比 全 连接 网 络 ( 图 9. 8(f)) 低 
得 多 。 

4. 树 状 和 星 型 

图 9.9(a) 是 一 棵 5 层 31 个 节点 的 二 叉 树 。 一 般 来 说 ,一 棵 & 层 完全 平衡 的 二 又 树 有 
六 三 2 一 1 个 节点 。 其 最 大 的 节点 度 d 王 3, 直 径 D= 二 2(k 一 1) ,等 分 宽度 5 二 1。 由 于 节点 度 
是 常数 ,因此 二 又 树 是 一 种 可 扩展 的 结构 。 其 缺点 是 直径 比较 长 。 美 国 哥 伦比 亚 大 学 于 
1987 年 研制 的 DADO 多 处 理 机 采用 的 互 连 是 10 层 二 叉 树 形式 ,有 1023 个 节点 。 

星 型 网 络 是 一 种 两 层 的 树 ( 图 9. 9(b) ) ,节点 度 较 高 ,为 d 一 N 一 1。 直 径 较 小 ,为 D=2， 
等 分 宽度 0 一 LN/2 上 但 星 型 的 可 靠 性 比较 差 , 只 要 中 心 节点 出 故障 ,整个 系统 就 会 瘫痪 。 
星 型 结构 一 般 用 于 有 集中 监督 节点 的 系统 中 。 

5. 胖 树 状 

1985 年 Leiserson 提出 将 计算 机 科学 中 所 用 的 一 般 树 结构 修改 为 胖 树 状 。 树 状 网 络 的 
一 个 主要 缺点 是 其 根部 节点 以 及 连 到 根部 的 链 路 上 的 负载 比较 重 , 有 可 能 会 成 为 整个 系统 
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的 瓶颈 。 胖 树 的 提出 使 该 问题 得 到 了 缓解 。 二 又 胖 树 结构 如 图 9. 9(c) 所 示 , 胖 树 的 通道 宽 9 
度 从 叶 节 点 往 根 节点 方向 逐渐 增 宽 , 它 更 像 真 实 的 树 , 越 靠近 树 根 ,树干 就 越 粗 。 这 种 结构 齐 


已 经 在 CM-5 计算 机 上 得 到 了 应 用 。 


从 的 米 2 Ek 


(a) 二 叉 树 (b) 星 型 (0) 二 叉 胖 树 
图 9.9 树 状 、 星 型 . 胖 树 状 网 络 


6. 网 格 状 和 环 网 状 

网 格 状 是 一 种 比较 流行 的 结构 , 它 已 经 以 各 种 变 体形 式 在 Illiac NN ,CM-2 和 Intel 
Paragon 等 机 器 中 得 到 了 实现 。 作 为 例子 ,图 9.10(a) 中 夯 出 了 一 个 3X3 的 二 维 网 格 状 网 
络 。 对 于 一 个 规模 为 N= 二 nXn 的 二 维 网 格 状 网 络 来 说 ,其 内 部 节点 的 度 d 一 4, 边 节点 的 度 
qd 一 3, 角 节点 的 度 4 二 2, 网 络 直 径 D 二 2(n 一 1) ,等 分 宽度 4 二 n。 这 个 网 络 是 不 对 称 的 。 


90 ( / ob 
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(a) 网 格 状 (b) Illiac 网 (c) 环 网 状 
图 9.10 二 维 网 格 和 环 型 网 


Ian 


fy 


一 般 来 说 ,一 个 由 N=n* 个 节点 构成 的 k 维 网 格 状 网 络 ( 每 维 n 个 节点 ) 的 内 部 节点 度 
d= 二 2k, 网 络 直径 D=k(n 一 1)。 

图 9.10(b) 是 一 个 Illiac 网 络 。 其 名 称 来 源 于 采用 了 这 种 网 络 的 Iliac 外 计 算 机 。 它 
是 二 维 网 格 状 网 络 的 一 种 变形 。 把 二 维 网 格 状 网 络 的 每 一 列 的 两 个 端 节 点 连接 起 来 ,再 
把 每 一 行 的 尾 节点 与 下 一 行 的 头 节 点 连接 起 来 ,并 把 最 后 一 行 的 尾 节点 与 第 一 行 的 头 节 
点 连接 起 来 ,就 形成 了 Illiac 网 络 。 对 于 一 个 规模 为 nXn 的 Illiac 网 络 来 说 ,其 所 有 节点 
的 度 d=4, 网 络 直 径 D==n 一 1, 等 分 宽度 为 2n。llliac 网 络 的 直径 只 有 纯 网 格 状 网 络 直径 
的 一 半 。 

如 图 9. 10(c) 所 示 的 环 网 状 网 络 也 是 二 维 网 格 状 网 络 的 一 种 变形 。 把 二 维 网 格 状 网 络 
的 每 一 行 的 两 个 端 节点 连接 起 来 ,把 每 一 列 的 两 个 端 节点 也 连接 起 来 ,就 成 了 环 网 状 网 络 。 
对 于 一 个 规模 为 nXn 的 环 网 状 网 络 来 说 ,其 所 有 节点 的 度 d 二 4, 网 络 直径 D==2 Ln/2 小 等 
分 宽度 5 二 2n。 环 网 是 一 种 对 称 的 拓扑 结构 ,所 有 附加 的 回馈 连接 使 得 原来 网 格 结构 的 直 
径 减 少 了 一 半 。 这 种 拓扑 结构 将 环 型 和 网 格 状 组 合 在 一 起 .并 能 向 高 维 扩展 。 
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7. 超 立 方 体 

这 是 一 种 二 元 n- 立 方 体 结构 , 它 已 在 iPSC,nCUBE 和 CM-2 等 计算 机 系统 中 得 到 了 实 
现 。 一 般 来 说 ,一 个 二 元 n- 立 方 体 由 N==2" 个 节点 组 成 ,它们 分 布 在 n 维 上 ,每 维 有 两 个 节 
点 。8 个 节点 的 3- 立方体 如 图 9.11(a) 所 示 。 


(a) 三 维 立方 体 (b) 由 两 个 三 维 立 方 体 组 成 的 4 维 立方 体 
图 9.11 超 立 方 体 


将 两 个 3- 立 方 体 中 相对 应 的 节点 用 链 路 连接 起 来 , 便 可 形成 4- 立方 体 , 如 图 9. 11(b) 所 
示 。 以 此 类 推 , 便 可 形成 更 多 维 的 立方 体 。 一 般 地 ,如 果 要 形成 一 个 规模 为 N= 二 2" 的 n- 立 
方 体 ,只 要 把 两 个 (一 1) 立 方 体 中 相对 应 的 节点 用 链 路 连接 起 来 即 可 , 共 需 要 连接 2 一 :条 链 
路 。 由 于 对 于 nn- 立 方 体 中 的 每 一 个 节点 来 说 ,在 其 每 一 维 的 方向 上 ,都 有 且 仅 有 一 个 节点 
与 其 相连 ,所 以 节点 的 度 d 三 n。n 维 立 方 体 的 直径 DD 二 ,等 分 宽度 为 5 二 N/2。 由 于 其 节 
点 度 随 维 数 线性 地 增加 ,所 以 超 立方 体 结 构 的 扩展 十 分 困难 。 超 立方 体 的 网 络 结构 是 对 
称 的 。 

在 20 世纪 80 年 代 的 研究 和 开发 中 ,二 元 超 立 方 体 网 络 是 一 种 非常 流行 的 结构 。Intel 
的 iPSC/1\iPSC/2 和 nCUBE 机 都 采用 了 这 种 结构 。 这 种 结构 的 连接 比较 密集 ,其 他 诸如 
二 叉 树 和 网 格 状 等 结构 都 可 以 嵌入 超 立方 体 。 

由 于 可 扩展 性 差 ,而 且 高 维 超 立 方 体 难以 打包 成 模块 化 , 超 立 方 体 结构 已 逐渐 被 其 他 结 
构 所 取代 。 例 如 ,CM-5 机 握 弃 了 CM-2 采用 的 超 立 方 体 结构 , 改 用 更 好 的 胖 树 状 结构 ;Intel 
的 Paragon 机 也 据 弃 了 以 前 采用 的 超 立方 体 结构 ,而 改 用 更 好 的 二 维 网 格 状 结构 。 

8. 带 环 立 方 体 

图 9.12(a) 是 一 个 带 环 3- 立 方 体 ( 简 称 3-CCC) 网 络 , 它 是 把 3- 立 方 体 的 每 个 节点 换 成 
一 个 由 三 个 节点 构成 的 环 而 形成 的 。 


2 k 
3 kl 
/ 
4 7 
5 
I- 
(a) 带 环 3- 立 方 体 (b) 将 k- 立 方 体 的 每 个 节点 用 由 k 个 节点 


的 环 来 代替 ， 组 成 带 环 人 -立方体 
图 9.12 带 环 立方 体 
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一 般 来 说 , 带 环 人 立方体 ( 简 称 和 CCC) 是 -立方 体 的 变形 , 它 是 通过 用 & 个 节点 构成 
的 环 取代 对 -立方 体 中 的 每 个 节点 而 形成 的 。 其 网 络 规模 为 N 一 AX2 ,网络 直径 为 D 二 2k 一 
1 十 [R/2 」, 比 -立方 体 的 直径 大 一 入; 其 等 分 宽度 为 5 二 N/(2k)。 

前 面 讲 过 ,k 维 立 方 体 中 每 个 节点 的 度 都 是 上 , 即 有 条 边 与 之 相连 。 当 用 由 个 节点 
构成 的 环 取代 这 个 节点 ( 设 为 a) 时 ,让 该 环 中 的 各 节点 分 别 与 a 所 连接 的 条 边 连 接 。 如 
图 9.12(b) 所 示 。 这 样 一 来 ,不 管 带 环 k- 立 方 体 的 & 有 多 大 ,所 有 节点 的 度 都 是 常数 3 ,与 超 
立方 体 的 维 数 无 关 , 因 而 具有 很 好 的 扩展 性 。 

9. 元 n -立方 体 网 络 

环 型 .网 格 、 环 网 状 、 二 元 n- 立 方 体 ( 超 立方 体 ) 和 Omega 网 络 都 是 上 元 n- 立 方 体 网 络 
系列 的 拓扑 同 构 体 。 图 9. 13 是 一 个 4 元 3- 立 方 体 网 络 的 示意 图 。 注意, 图 中 被 遮挡 的 节 
点 和 连 线 没有 夯 出 。 


be 


图 9.13 4 元 3- 立方 体 网 络 


在 k& 元 n- 立 方 体 网 络 中 ,参数 n 是 立方 体 的 维 数 .k 是 基数 , 即 每 一 维 上 的 节点 个 数 ,这 

两 者 的 关系 是 
入 一 如 (k= VN,n= logN) 

上 元 n- 立 方 体 的 节点 可 以 用 基数 为 k 的 n 位 地 址 A 三 a1as…a, 来 表示 ,其 中 ai 表示 该 节点 
在 第 i 维 上 的 位 置 。 为 简单 起 见 ,假设 所 有 的 链 路 都 是 双向 的 。 网 络 中 的 每 条 线 代 表 两 个 
通信 通道 ,每 个 方向 一 个 。 图 9. 13 中 各 节点 之 间 的 连 线 都 是 双向 的 。 

按照 惯例 ,通常 把 低 维 & 元 7 立方 体 称 为 环 网 ,而 把 高 维 人 元 2 立方 体 称 为 超 立方 体 。 

表 9.1 汇总 了 静态 互连网 络 的 重要 特性 。 大 多 数 网 络 的 节点 度 都 不 超过 4, 这 是 比较 
理想 的 。 全 连接 网 络 和 星 型 网 络 的 节点 度 太 高 。 超 立方 体 的 节点 度 随 logsN 值 的 增 大 而 
增 大 , 当 NN 值 很 大 时 其 节点 度 也 太 高 。 

网 络 直径 的 变化 范围 很 大 。 虽 然 直径 小 仍然 是 一 种 优点 ,但 随 着 硬件 寻 径 技术 不 断 革 
新 ,直径 已 不 是 一 个 严重 的 问题 ,因为 在 采用 高 度 流水 技术 后 ,任意 两 节点 间 的 通信 延迟 几 
乎 是 固定 不 变 的 。 链 路 数 会 影响 网 络 价格 ,等 分 宽度 将 影响 网 络 的 带宽 ,可 以 通过 采用 较 宽 
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的 通道 来 扩大 等 分 宽度 。 
表 9.1 静态 互连网 络 特征 一 览 表 


网 络 类 型 节点 度 d | 网 络 直径 了 链 路 数 / 等 分 宽度 B | 对 称 性 网 络 规格 说 明 
线 线 阵 列 2 N—1 N=1 1 非 NN 个 节点 
环 型 A [LN/2] N 中 是 | NN 个 节点 
全 连接 N-1 |1 NCN 一 1)/2 | CN/2) 是 “| N 个 节点 
二 叉 树 3 2(h—1) N= 1 非 树 高 h 二 [logs Nj] 
星 型 和 二 和 | 者 N=1 [LN/2] 非 NN 个 节点 
2D 网 格 4 Zr 一 二 2N 一 2r r 非 ”| xr 网 格 ,r=VN 
llliac 网 4 r—1 2N 2r 非 A YN 的 带 弦 环 
2D 环 网 4 2[r/2] 2N 2r 是 |rxr 环 网 ,r=VN 
AR 入 个 节点 ， 
超 立方 体 n n nN/2 N/2 n= 二 [logs N]( 维 数 ) 
a N=kX2t 节点 
CCC 3 24 一 1 十 LA/2] | 3N/2 JNVC2A) 未 长 上 3 
上 元 nr 立方体 2n n[k/2] nN 2 是 N=k" 个 节点 


对 称 性 会 影响 可 扩 放 性 和 寻 径 效率 。 网 络 的 总 价格 随 网 络 直径 和 链 路 数 的 增 大 而 上 
升 。 直 径 小 仍然 是 一 个 优点 ,但 节点 之 间 的 平均 距离 可 能 是 一 种 更 好 的 度量 指标 。 
例 9.2 已 知 有 16 台 个 处 理 器 用 Illiac 网 络 互 连 , 写 出 Illiac 网 络 的 互 连 函 数 ,给 出 表 
示 任 何 一 个 处 理 器 PU;(0i 二 15) 与 其 他 处 理 器 直接 互 连 的 一 般 表 达 式 。 
解 Illiac 网 络 连接 的 节点 数 N= 二 16, 组 成 4X4 的 阵列 。 每 一 列 的 4 个 处 理 器 互 连 为 
一 个 双向 环 ,第 1 一 第 4 列 的 双向 环 可 分 别 用 循环 互 连 函 数 表示 为 
(0 4 8 oy (12 8 4 0) 
(1 5 9 13) (13 9 5 1) 
(2 6 10 14) (14 10 6 2) 
人 i WB 1 1 
其 中 ,传送 方向 为 顺 时 针 的 4 个 单 向 环 的 循环 互 连 函 数 可 表示 为 
PM242:(X) = (X 十 22) mod N = (X+4) mod 16 
传送 方向 为 道 时 针 的 4 个 单 向 环 的 循环 互 连 函数 可 表示 为 
PM2_,(X) = (X 一 22) mod N = (X—4) mod 16 
16 个 处 理 器 由 Illiac 网 络 的 水 平 螺 线 互 连 为 一 个 双向 环 ,用 循环 互 连 函 数 表示 为 
[go WE .2 
Cs I 
其 中 ,传送 方向 为 顺 时 针 的 单 向 环 的 循环 互 连 函 数 可 表示 为 
PM210(X) = (X+2°) mod N = (X 十 1) mod 16 
传送 方向 为 逆 时 针 的 单 向 环 的 循环 互 连 函数 可 表示 为 
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PM2_,(X) = (X—2°) mod N= (X—1) mod 16 
所 以 ,N==16 的 Illiac 网 络 的 互 连 函 数 有 4 个 : PM24.o(X) 和 PM2.,(X)。 9 
由 互 连 函数 可 得 任何 一 个 处 理 器 ; 直接 与 下 述 4 个 处 理 器 双向 互 连 ， 
1i 士 1 mod 16 
1i 士 4 mod 16 


9.4 动态 互连网 络 


动态 互连网 络 设 置 有 有 源 开关 ,因而 能 够 根据 需要 借助 控制 信号 对 连接 通路 加 以 重新 
组 合 ,实现 所 要 求 的 通信 模式 。 下 面 介绍 总 线 网 络 ,交叉 开关 网 络 和 多 级 互连网 络 。 


9.4.1 总 线 网 络 


总 线 由 一 组 导线 和 插座 构成 ,经 常 被 用 来 实现 计算 机 系统 中 处 理 机 模块 ,存储 模块 和 外 
围 设备 等 之 间 的 互 连 。 每 一 次 总 线 只 能 用 于 一 个 源 ( 主 部 件 ) 到 一 个 或 多 个 目的 (从 部 件 ) 之 
间 的 数据 传送 。 在 有 多 个 请 求 的 情况 下 ,总 线 仲裁 逻辑 只 能 按 一 定 的 规则 将 总 线 分 配给 其 
中 的 一 个 请 求 , 并 且 按 分 时 原则 轮流 为 多 个 请 求 服务 。 所 以 ,总 线 经 常 被 称 为 多 个 功能 模块 
之 间 的 争 用 总 线 (Contention Bus) 或 时 分 总 线 (Time-sharing Bus)。 与 多 级 互连网 络 和 交 
又 开关 网 络 相 比 ,总线 系统 具有 结构 简单 .实现 成 本 低 等 优点 。 但 由 于 是 由 许多 模块 分 时 共 
享 的 ,每 次 只 能 处 理 一 个 请 求 ,所 以 它 很 容易 就 会 成 为 系统 的 瓶颈 。 

采用 总 线 系统 时 ,有 很 多 工业 总 线 标准 和 IEEE 总 线 标准 可 供 选 择 。 

图 9. 14 是 一 种 由 总 线 连接 的 多 处 理 机 系统 的 示意 图 。 系 统 总 线 在 处 理 机 、1/O 子 系 
统 、 主 存储 器 以 及 辅助 存储 设备 (磁盘 、 磁 带 机 等 ) 之 间 提 供 了 一 条 公用 通路 。 系 统 总 线 通 常 
设置 在 印刷 电路 板 底板 上 。 处 理 器 板 、 存 储 器 板 和 设备 接口 板 都 通过 插座 或 电缆 插入 底板 。 


| 


处 理 机 | P， 
1/0 子 系统 


oN 本 辅助 存储 器 
主 存储 器 > nm ( 磁 瘟 、 破 带 部 件 ) 


图 9.14 一 种 由 总 线 连接 的 多 处 理 机 系统 


为 了 解决 总 线 带 宽 较 窗 的 问题 ,可 以 采用 多 总 线 或 多 层次 的 总 线 。 多 总 线 是 设置 多 条 
总 线 。 这 有 两 种 做 法 ,一 种 是 为 不 同 的 功能 设置 专门 的 总 线 , 另 一 种 则 是 重复 设置 相同 功能 
的 总 线 。 多 层次 的 总 线 是 按 层次 的 架构 设置 速度 不 同 的 总 线 , 使 得 不 同 速度 的 模块 有 比较 
适合 的 总 线 连接 。 
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9.4.2 交叉 开关 网 络 


可 以 把 交叉 开关 网 络 (crossbar) 看 作 一 个 单 级 开关 网 络 。 像 电话 交换 机 一 样 ,交叉 点 
开关 能 在 对 偶 ( 源 、 目 的) 之 间 形 成 动态 连接 ,同时 实现 多 个 对 偶 之 间 的 无 阻塞 连接 。 开 关 可 
根据 程序 的 要 求 动态 地 设置 为 " 开 ? 或 “ 关 ”。 与 其 他 的 动态 互连网 络 相 比 ,交叉 开关 网 络 的 


带宽 和 互 连 特性 是 最 好 的 。 对 于 一 个 nXn 的 交叉 开 
关 网 络 , 可 以 无 阻塞 地 实现 n! 种 置换 。 不 过 ,对 一 个 
nXn 的 交叉 开关 网 络 来 说 ,需要 n* 套 交叉 点 开关 以 及 
大 量 的 连 线 。 当 n 很 大 时 ,交叉 开关 网 络 所 需要 的 硬 
件数 量 非常 巨大 。 因 此 ,一 般 只 有 nn 三 16 的 小 型 交叉 
开关 网 络 用 在 商品 化 的 机 器 中 。 

我 们 可 以 在 处 理 机 和 存储 器 模块 之 间 用 交叉 开关 
网 络 互 连 ,构成 一 个 共享 存储 器 的 多 处 理 机 。 图 9. 15 
是 C. mmp 多 处 理 机 的 互 连 结 构 示 意图 。 它 用 16X16 
的 交叉 开关 网 络 把 16 台 PDP-11 处 理 机 与 16 个 存储 
模块 连 在 一 起 ,最 多 可 同时 实现 16 台 处 理 机 对 16 个 
不 同 存储 模块 的 并 行 访问 。 

这 里 ,每 个 存储 模块 一 次 只 能 满足 一 台 处 理 机 的 


OO 


MI M2 下 Mi 


图 9.15 C.mmp 多 处 理 机 中 的 交 


又 开关 网 络 


请 求 。 当 多 个 请 求 要 同时 访问 同一 存储 模块 时 ,交叉 开关 就 必须 分 解 所 发 生 的 冲突 ,每 一 列 
只 能 接 通 一 个 交叉 点 开关 。 但 是 ,每 一 台 处 理 机 可 能 会 产生 一 系列 地 址 要 同时 访问 多 个 存 
储 模块 。 为 了 支持 并 行 (或 交叉 ) 存 储 器 访问 ,可 以 在 同一 行 中 接 通 几 个 交叉 点 开关 。 

图 9.16 是 Fujitsu 公司 制造 的 向 量 并 行 处 理 机 VPP500 所 采用 的 大 型 交换 开关 网 络 
(224X224)。 其 中 PE 表示 带 存储 器 的 处 理 机 ,CP 代表 控制 处 理 机 。 这 是 一 个 用 于 实现 处 
理 机 之 间 通 信 的 互连网 络 。 在 这 个 网 络 中 ,每 一 行 和 每 一 列 只 能 接 通 一 个 交叉 点 开关 。 


汪 9 个 一作 DO 人 争 - 一 介 
0—0—0——0—$9 9—0 
PE220 O O O O OO—O 
ELO oo 一 oo- 一 

I | 1 | 

| | | | 
人 
CP002 -00 ------- GD---9O--- 
CP001 9 9 ------- ea 一 一 
Oin CP001 | | CPo02 | | PE001 | [PE219 |] | PE220 | | PE221 | | PE222 
Ou 接收 


9.16 VPP500 向 量 并 行 处 理 机 中 处 理 机 间 的 交叉 开关 网 络 


互 过 网 络 


处 理 机 之 间 的 交叉 开关 可 以 实现 处 理 机 之 间 的 置换 连接 ,但 这 只 是 一 对 一 的 连接 。 所 
以 nXn 交叉 开关 网 络 一 次 最 多 可 实现 n 个 “ 源 -目的 "对 的 连接 。 


9.4.3 多 级 互连网 络 


1. 多 级 互连网 络 的 构成 

MIMD 和 SIMD 计算 机 一 般 都 采用 多 级 互连网 络 (Maultistage Interconnection 
Network,MIN) 。 一 种 通用 的 多 级 互连网 络 如 图 9. 17 所 示 , 其 中 每 一 级 都 用 了 多 个 aX6b 
开关 , 相 邻 各 级 开关 之 间 都 有 固定 的 级 间 连 接 。 为 了 在 输入 和 输出 之 间 建 立 所 需 的 连接 ,可 
以 通过 动态 设置 开关 的 状态 来 实现 。 


0 一 一 | 一 | | | ji -| Pe 
1—=| aXb 上 -一 | [一 ax 上 一 | | | axb 上 一 1 
ql 一 =| 开关 上 | 上 -| 开关 上 上 -| Ei FE ;i 


-Dh 
axb fe b+l 


Isc, 上 一 | 开关 上 上 ~ 2p-1 


1 


2q_1- | 开关 i isc, : 。| 开关 :| Isc, i 


ea 一 一 | 一 | 一 | 一 一 一 | | bn_h 
-一 | aXb | 一 | -| axXb 上 一 | — 一 -一 | aXb 上 一 
1 一 | 开关 下 | 开关 上 到 :| 开关 下。 
级 1 级 2 Rs 级 n 


图 9.17 一 种 由 ax 开关 模块 和 级 间 连 接 ISC ,1SC; ,… ,ISC, 构成 的 通用 多 级 互连网 络 结构 


一 个 aXwb 开关 模块 有 a 个 输入 和 4 个 输出 。 在 理论 上 ,a 和 4 不 一 定 相等 ,然而 实际 上 
a 和 0， 经 常 选 为 2 的 整数 寡 , 即 < 一 0 一 2 ,k 宇 1。 
各 种 多 级 互连网 络 的 区 别 在 于 所 用 开关 模块 .控制 方式 和 级 间 互 连 模 式 的 不 同 。 
表 9.2 列 出 了 几 种 常用 的 开关 模块 : 2X2、4X4、8X8。 这 些 模块 中 ,每 个 输入 可 与 一 
个 或 多 个 输出 相连 ,但 是 在 输出 端 不 许 发 生 冲 突 。 换 句 话说 ,一 对 一 和 一 对 多 的 映射 是 允许 
的 ,但 不 允许 有 多 对 一 映射 ,否则 输出 端 将 发 生 冲 突 。 
表 9.2 几 种 常用 的 开关 模块 


模块 大 小 合法 状态 置换 连接 模块 大 小 合法 状态 置换 连接 
2X2 | 4 | | 8X8 | 16 777 216 | 40 320 
4X4 256 24 nxXn 加 nl 


最 简单 的 开关 模块 是 2X2 开关 ,可 用 作 各 种 多 级 互连网 络 的 基本 构件 。2X2 开关 有 4 
种 连接 方式 ,如 图 9. 18 所 示 。 

控制 方式 是 指 对 各 个 开关 模块 进行 控制 的 方式 , 它 可 以 有 三 种 。 

(1) 级 控制 : 每 一 级 的 所 有 开关 只 用 一 个 控制 信号 进行 控制 ,这 些 开 关 只 能 同时 处 于 
同一 种 状态 ; 


CD 
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0—=F-|-0 0 一 0 0 -十 一 0 Pe 
>、 i 2 

1 一 汪 - 才 -1 1 一 1 1 1 1 -1 

(a) 直送 (b) 交换 (c) 上 播 (d) 下 播 

图 9.18 2X2 开关 的 4 种 连接 方式 


(2) 单元 控制 : 每 一 个 开关 都 有 一 个 独立 的 控制 信号 ,可 各 自 处 于 不 同 的 状态 ; 

(3) 部 分 级 控制 : 第 i 级 的 所 有 开关 分 别 用 i 十 1 个 信号 控制 ,0 入 i 委 2 一 1,7 为 级 数 。 

常用 的 级 间 互 连 模式 包括 均匀 洗 牌 , 蝶 式 、 多 路 洗 牌 .纵横 交叉 、 立 方 体 连接 等 。 

2. 多 级 立方 体 网 络 

多 级 立方 体 网 络 包括 STARAN 网 络 和 间接 二 进 制 n 方 体 网 络 等 。 这 两 者 仅 在 控制 方 
式 上 不 同 ,在 其 他 方面 都 是 一 样 的 。 它 们 都 是 采用 二 功能 (直送 和 交换 ) 的 2X2 开关 。 当 第 
i 级 (0 三 i 三 n 一 1) 交 换 开 关 处 于 交换 状态 时 ,实现 的 是 Cube; 互 连 函 数 。 

图 9. 19 是 一 个 8 个 人 端的 多 级 立方 体 网 络 示意 图 。 一 般 来 说 ,一 个 N 输入 的 多 级 立 
方 体 网 络 有 logzN 级 ,每 级 用 N/2 个 2X2 开关 模块 , 共 需 要 log:NXNV/2 个 开关 。 
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图 9.19 多 级 立方 体 网 络 


STARAN 网 络 采 用 级 控制 和 部 分 级 控制 ,而 间接 二 进 制 m 方 体 网 络 则 采用 单元 控制 。 
因而 后 者 具有 更 大 的 灵活 性 。 当 STARAN 网 络 采用 级 控制 时 ,所 实现 的 是 交换 功能 ;而 采 
用 部 分 级 控制 时 , 则 能 实现 移 数 功能 。 

所 谓 交 换 , 是 指 将 有 序 的 一 组 元 素 头 尾 对 称 地 进行 交换 。 例 如 ,对 于 由 8 个 元 素 构成 的 
组 ,其 各 种 基本 交换 的 图 形 如 图 9. 20 所 示 。 其 中 ,4 组 2 元 交换 是 把 8 个 元 素 分 成 4 组 ,每 
组 2 个 元 素 , 各 组 内 都 进行 2 元 交换 ;2 组 4 元 交换 是 把 8 个 元 素 分 成 2 组 ,每 组 4 个 元 素 ， 
各 组 内 都 进行 4 元 交换 ;1 组 8 元 交换 是 全 交换 ,也 称 为 镜像 交换 。 

表 9.3 给 出 了 三 级 STARAN 网 络 在 各 种 级 控制 信号 的 情况 下 所 实现 的 入 出 端 连接 以 
及 所 实现 的 交换 函数 和 功能 。 其 中 名 所 为 控制 信号 ,ki (i 二 0,1.2) 为 第 i 级 的 级 控制 信 
号 。 从 表 中 可 以 看 出 ,下 面 的 4 行 中 每 一 行 所 实现 的 功能 可 以 从 级 控制 信号 为 其 反 码 的 一 
行 中 所 实现 的 功能 加 上 1 组 8 元 变换 来 获得 。 例 如 ,级 控制 信号 为 110 所 实现 的 功能 是 其 
反 码 001 所 实现 的 4 组 2 元 交换 再 加 上 1 组 8 元 交换 来 获得 的 。 这 是 因为 110 二 001@8111， 
而 且 两 个 控制 信号 的 异 或 运算 就 是 其 所 实现 的 相应 功能 的 又 加 (由 于 Cube 函数 的 道 函数 
就 是 它 自己 ,所 以 偶数 次 作用 相互 抵消 ) 。 


(a) 4 组 2 元 交换 


(b) 2 组 4 元 交换 


euw 上 上 
只 ww 上 上 
whwb 口 


图 9.20 8 个 元 素 的 基本 交换 图 形 


表 9.3 


交换 函数 功能 (k 为 第 i 级 控制 信号 ) 


互 过 网 络 


wwbb 吕 


(c) 1 组 8 元 交换 


三 级 STARAN 交换 网 络 实现 的 入 出 端 连接 及 所 执行 的 


制 信号 日 号 序列 

000 01234567 人 恒 等 I 

001 10325476 4 组 2 元 交换 Cubeo 

010 23016745 4 组 2 元 交换 十 2 组 4 元 交换 Cube 

011 32107654 2 组 4 元 交换 Cubeo + Cube 
100 45670123 2 组 4 元 交换 十 1 组 8 元 交换 Cubes 


101 


54761032 


4 组 2 元 交换 十 2 组 4 元 交换 十 


Cubeo 十 Cubes 


1 组 8 元 交换 
110 67452301 4 组 2 元 交换 十 1 组 8 元 交换 Cube + Cube; 
Dit 76543210 1 组 8 元 交换 Cubeo + Cube + Cubes 


当 控 制 信号 kkiko 为 001.011 和 111 时 所 实现 的 交换 分 别 如 图 9. 20(a)、 图 9. 20(b)、 
图 9.20(c) 所 示 。 
当 STARAN 网 络 用 作 移 数 网 络 时 ,采用 部 分 级 控制 ,控制 信号 的 分 组 和 控制 结果 如 


表 9.4 所 示 。 
表 9.4 STARAN 网 络 在 部 分 级 控制 方式 下 所 实现 的 移 数 置换 
部 分 级 控制 信号 
出 端 号 序列 
ABCD|IEGIF HH I J |K 
1 1 0 1 0 i2345670 移 1 mod 8 
0 1 1 1 入 23456701 移 2 mod 8 
0 0 0 1 1 45670123 移 4 mod 8 
1 1 0 0 0 12305674 移 1 mod 4 
0 1 0 0 23016745 移 2 mod 4 
1 0 0 0 0 10325476 移 1 mod2 
0 0 0 0 0 01234567 不 移 全 等 
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STARAN 网 络 因 巨 型 相 联 处 理 机 STARAN 而 得 名 。 它 被 成 功 地 用 在 了 STARAN 机 
器 中 的 多 维 相 联 存储 器 与 处 理 部 件 之 间 ,对 存储 器 中 错位 存放 的 数据 在 读 出 后 和 写 人 前 进 
行 重新 对 准 和 排列 ,以 适应 处 理 部 件 对 数据 正常 位 序 的 需要 。 利 用 交换 和 移 数 这 两 种 基本 
功能 ,加 上 对 数据 位 进行 屏蔽 ,还 可 以 实现 全 混 、 展 开 、 压 缩 等 多 种 数据 变换 。 

3. Omega 网 络 

图 9. 21 是 一 个 8X8 的 Omega 网 络 , 共 有 三 级 ,每 级 由 4 个 4 功能 的 2X2 开关 构成 。 
级 间 互 连 采 用 均匀 洗 牌 连接 方式 。 网 络 的 左 侧 是 8 个 输入 , 右 侧 是 8 个 输出 。 


De " " 10 
1 4 2 | 
Me 4 2 2 
3 V5 6 3 3 
4 /2 1 4 a 
5 6 3 5 2 
PS A 5 6 je 
| 7 7 es 


图 9.21 8X8 的 Omega 网 络 


一 般 来 说 ,一 个 N 输入 的 Omega 网 络 有 logsN 级 ,每 级 用 N/2 个 4 功能 的 2X2 开关 
模块 , 共 需 要 logs NX N/2 个 开关 。 每 个 开关 模块 均 采用 单元 控制 方式 。 

把 图 9. 19 中 的 开关 F 和 G 对 调 ( 保 持原 来 的 连接 ) ,就 可 以 得 到 如 图 9. 22 所 示 的 互 连 
网 络 。 把 图 9. 21 与 图 9. 22 进行 对 比 可 以 发 现 ,这 两 个 互连网 络 在 拓扑 结构 上 正好 是 互 逆 
的 。 假 设 图 9. 21 是 画 在 玻璃 上 的 ,那么 从 正面 看 ,是 Omega 网 络 ;如 果 到 玻璃 的 背后 看 过 
来 ,就 是 如 图 9. 22 所 示 的 三 级 立方 体 网 络 。 所 以 ,如 果 Omega 网 络 也 采用 2 功能 交换 开 
关 , 那 么 Omega 网 络 和 间接 二 进 制 方 体 网 络 就 互 为 逆 网 络 。 
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图 9.22 N==8 的 多 级 立方 体 互连网 络 的 另 一 种 画 法 


9.4.4 动态 互连网 络 的 比较 
表 9.5 中 列 出 了 总 线 、 多 级 互连网 络 以 及 交叉 开关 的 主要 特性 。 


互 过 网 络 


表 9.5 动态 网 络 的 主要 特性 和 

网 络 特 性 总 线 系 统 多 级 网 络 交叉 开关 - 
单位 数据 传送 的 最 小 时 延 | 恒定 O(logn) 恒定 
每 台 处 理 机 的 带宽 Ol(w/n) ~O(w) Ow) ~Onw) Ow) ~O(nw) 
连 线 复杂 性 Ow) O(nwlogin) On rw) 
开关 复杂 性 On) O(nlogin) On?) 

只 要 网 络 不 , 训 人 字 
连接 特性 和 寻 径 性 能 | 一 次 只 能 一 对 一 直 归 下 乡 生 有 加 这 条 穴 | 全 置换 ,一 次 一 个 
Ri We 
说 明 总 线 上 假定 有 台 处 理 nXn MIN 采用 kXk 开 | 假定 nXn 交叉 开关 
机 ;总 线 宽度 为 w 位 关 , 其 线 宽 为 zw 位 的 线 宽 为 w 位 


显然 ,总 线 互 连 的 复杂 性 最 低 ,成 本 也 是 最 低 。 其 缺点 是 每 台 处 理 机 可 用 的 带宽 较 罕 。 

交叉 开关 是 最 昂贵 的 ,因为 其 硬件 复杂 性 以 wn* 上 升 ,所 以 其 成 本 最 高 。 但 是 交叉 开关 
的 带宽 和 寻 径 性 能 最 好 。 如 果 网 络 的 规模 较 小 , 它 就 是 一 种 理想 的 选择 。 

多 级 互连网 络 的 复杂 度 和 带宽 介 于 总 线 和 交叉 开关 之 间 ,是 一 种 折 中 方案 。 其 主要 优 
点 是 采用 模块 化 结构 ,可 扩展 性 较 好 。 不 过 ,其 时 延 随 网 络 级 数 的 增加 而 上 升 。 另 外 ,由 于 
其 硬件 复杂 度 比 总 线 高 很 多 ,所 以 其 成 本 也 不 低 。 


消息 传递 机 制 


消息 传递 机 制 在 实现 多 处 理 机 或 多 计算 机 中 各 节点 之 间 的 互 连 通 信 中 有 重要 的 作用 。 
在 这 样 的 系统 中 ,处 理 机 之 间 是 通过 发 送 消 息 来 进行 通信 的 。 当 某 个 处 理 机 ( 设 为 A) 要 对 
远程 存储 器 上 的 数据 进行 访问 (或 操作 ) 时 , 它 就 通过 给 相应 的 远程 处 理 机 ( 设 为 B) 发 送 一 
个 消息 来 请 求 数据 (或 对 该 数据 进行 操作 )。 在 这 种 情况 下 ,可 以 把 该 消息 看 成 一 个 远程 进 
程 调用 (Remote Process Call,RPC)。 当 目的 处 理 器 B 接收 到 消息 以 后 ,就 代替 A 对 相应 的 
数据 进行 访问 (或 执行 相应 的 操作 ) ,然后 发 送 一 个 应 答 消 息 给 处 理 器 A, 将 结果 返回 。 

当 源 节点 和 目的 节点 之 间 没 有 直接 的 连接 时 ,消息 需要 经 过 中 间 的 节点 进行 传递 。 寻 
径 (routing) 就 是 用 来 实现 这 种 传递 的 通信 方法 和 算法 。 有 的 文献 称 之 为 路 由 。 


9.5.1 消息 寻 径 方案 


1. 消息 的 格式 
消息 是 节点 之 间 进 行 通信 的 逻辑 单位 ， 消息 | 
其 格式 如 图 9. 23 所 示 。 消 息 一 般 是 由 若干 | 


和 


个 * 包 ”组 成 的 。 尽 管 包 的 长 度 是 固定 的 ,但 外 
因 一 条 消息 中 所 包含 的 包 的 个 数 是 可 变 的 ， EY 
所 以 消息 的 长 度 是 不 定 长 的 。 ei ee 


包 是 包含 寻 径 所 需 目的 地 址 的 基本 单 0 
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位 。 由 于 不 同 的 包 可 能 是 异步 到 达 目 的 节点 的 ,因此 一 条 消息 中 的 各 个 包 都 依次 被 分 配 一 
个 序号 ,以 便 这 些 包 到 达 目 的 节点 后 能 重新 组 装 出 消息 。 

包 可 以 进一步 分 成 一 些 更 小 的 固定 长 度 的 单位 , 称 为 “ 片 ”(flit) 。 寻 径 信息 和 包 序 列 号 
形成 头 片 ,其 余 的 是 数据 片 。 

包 的 长 度 主要 是 由 寻 径 方案 和 网 络 的 具体 实现 所 决定 的 ,典型 的 长 度 是 64 一 512 位 不 
等 ; 片 的 长 度 经 常 受 网 络 大 小 的 影响 ,例如 一 个 由 256 个 节点 构成 的 网 络 要 求 片 的 长 度 为 8 
位 。 其 他 影响 包 的 长 度 和 片 的 长 度 的 因素 还 有 : 通道 带宽 , 寻 径 设计 ,网 络 的 流量 密度 等 。 

2. 四 种 寻 径 方式 

消息 寻 径 方式 可 以 分 为 两 大 类 : 线路 交换 和 包 交 换 。 包 交换 又 分 为 存储 转发 .虚拟 直 
通 、 虫 蚀 三 种 方式 。 

1) 线路 交换 

在 线路 交换 (Circuit Switch) 方 式 下 ,在 传递 一 个 信息 之 前 ,需要 先 建立 一 条 从 源 节点 
到 目的 节点 的 物理 通路 ,然后 再 传递 信息 。 其 传输 时 延 了 为 


Li+Lx (D+ 
B 


其 中 ,L 为 信息 包 的 长 度 ( 位 数 ) ,L, 为 建立 路 径 所 需 的 小 信息 包 的 长 度 ,D 为 经 过 的 中 间 节 
点 个 数 ,B 为 带宽 。 在 图 9. 24 中 ,D=4。 

线路 交换 的 优点 是 : 传输 带宽 较 大 ,平均 传输 时 延 较 小 ,而 且 使 用 的 缓冲 区 小 。 因 而 适 
合 于 具有 动态 和 突 发 性 的 大 规模 并 行 处 理 数据 的 传送 。 缺 点 是 : 需要 频繁 地 建立 源 节点 到 
目的 节点 的 物理 通路 ,时 间 开 销 会 很 大 。 

2) 存储 转发 

存储 转发 (Store and Forward) 是 最 简单 的 分 组 交换 方式 。 在 这 种 方式 中 , 包 是 信息 传 
递 的 基本 单位 ,如 图 9. 24(a) 所 示 。 包 从 源 节点 经 过 一 系列 中 间 节 点 到 达 目 的 节点 。 存 储 
转发 要 求 所 经 过 的 每 个 中 间 节 点 都 要 设置 一 个 包 缓 冲 器 ,用 于 保存 所 传递 的 包 。 当 一 个 包 
到 达 某 个 中 间 节 点 时 ,该 节点 先 把 这 个 包 全 部 存储 起 来 ,然后 在 出 口 链 路 可 用 、 而 且 下 一 个 


筑 : (9.1) 


源 节 点 目的 节点 
包 缓冲 
中 间 节 点 
-| 
(a) 存储 转发 
源 节 点 目的 节点 
片 缓冲 
中 间 节 点 
-和 
-| - 


(b) 虫 蚀 方式 
图 9.24 两 种 包 交 换 方式 
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节点 的 包 缓 冲 器 也 可 用 的 情况 下 ,传递 给 下 一 个 节点 。 
存储 转发 方式 中 ,网 络 的 时 延 与 源 和 目的 地 之 间 的 距离 ( 跳 数 ) 成 正比 ,时 延 Ts 为 


Ts 一 帮 CD+D (9.2) 


式 中 DD,L,B 参数 的 含义 同 式 (9. 1) 。 图 9. 25(a) 为 其 时 间 关 系 图 。 

可 以 看 出 ,存储 转发 方式 的 缺点 是 : 包 缓 冲 区 大 ,不 利于 VLSI 实现 ; @ 网 络 时 延 大 ， 
与 节点 距离 成 正比 。 

3) 虚拟 直通 

虚拟 直通 是 对 存储 转发 方式 的 一 种 改进 ,减少 了 网 络 时 延 。 其 基本 思想 是 : 没有 必要 
等 到 信息 包 全 部 放 和 人 缓冲 器 后 再 做 路 由 选择 ,只 要 接收 到 用 作 寻 径 的 包头 ,就 可 做 出 判断 。 
如 果 节点 的 输出 链 路 空闲 ,信息 包 可 以 不 必 存 储 在 该 节点 的 缓冲 器 中 ,而 是 立即 传送 到 下 一 
个 节点 。 如 果 整 条 链 路 都 空闲 , 包 就 可 以 立即 直达 目的 节点 。 这 时 它 就 同 使 用 线路 交换 一 
样 。 但 是 ,这 种 方式 还 是 要 求 每 个 节点 中 有 缓冲 器 。 这 是 因为 在 输出 链 路 不 空闲 时 ,还 是 要 
用 缓冲 器 进行 存储 。 所 以 无 论 用 存储 转发 还 是 用 虚拟 直通 ,各 中 间 节 点 都 需要 设置 缓冲 器 。 

虚拟 直通 的 通信 时 延 为 

全 


式 中 Ls 是 信息 包 寻 径 头 部 的 长 度 。 

一 般 来 说 ,LL,X(D 十 1), 所 以 TL/B。 可 以 看 出 ,此 时 通信 时 延 与 节点 数目 无 关 ， 
这 是 一 个 非常 大 的 改进 。 

当 出 现 寻 径 阻塞 时 ,虚拟 直通 方式 也 只 好 将 整个 信息 包 全 部 存储 在 寻 径 节点 中 ,直到 通 
道 不 阻塞 时 才能 将 信息 包 发 出 。 这 就 要 求 每 个 节点 都 有 足够 大 的 缓冲 区 来 存储 可 能 出 现 的 
最 大 的 信息 包 。 在 这 一 点 上 ,虚拟 直通 方式 与 存储 转发 方式 是 一 样 的 ,同样 不 利于 VLSI 的 
实现 。 

4) 虫 蚀 方式 

虫 蚀 方式 (Wormhole) 比 虚拟 直通 又 有 了 改进 。 它 把 信息 包 * 切 割 ” 成 更 小 的 单位 一 一 
“ 片 ”, 而 且 使 信息 包 中 各 片 的 传送 按 流 水 方式 进行 ,所 以 不 仅 可 以 减少 节点 中 缓冲 器 的 容 
量 , 而 且 还 能 缩短 传送 延迟 时 间 。 虫 蚀 方式 在 新 型 的 多 计算 机 系统 中 得 到 了 广泛 的 应 用 。 

虫 蚀 方式 所 能 处 理 的 最 小 信息 单位 是 “ 片 ”。 当 一 个 节点 把 头 片 送 到 下 一 个 节点 后 , 那 
么 接 下 来 就 可 以 把 后 面 的 各 个 片 也 依次 送出 。 一 个 节点 一 旦 开始 传送 一 个 包 中 的 头 片 后 ， 
这 个 节点 就 必须 等 待 这 个 包 的 所 有 片 都 送出 去 后 ,才能 传送 其 他 包 。 不 同 包 的 片 不 能 混合 
在 一 起 传送 。 

这 种 虫 蚀 方式 有 点 像 虚拟 直通 ,但 不 同 之 处 在 于 : 当 输 出 通路 忙 时 ,节点 是 把 一 个 片 存 
储 到 缓冲 器 中 。 由 于 片 的 大 小 比 包 小 很 多 .所 以 能 有 效 地 减少 缓冲 器 的 容量 ,使 得 它 易于 用 
VLSI 实现 。 

对 于 一 个 受到 阻塞 的 包 来 说 , 它 的 前 后 连续 的 各 个 片 可 以 散布 在 若干 个 中 间 节 点 中 。 
换 句 话说 ,整个 包 停留 在 已 建立 的 通路 中 的 某 一 路 径 段 里 。 当 可 以 继续 向 前 传送 时 , 头 片 每 
向 前 传送 一 个 节点 ,其 他 数据 片 就 跟着 相应 地 向 前 “蠕动 "一步, 就 好 像 一 条 虫 那 样 蠕动 
前 进 。 


(9.3) 
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虫 蚀 方式 的 通信 时 延 为 
SN 五 
Twn = Tr XD+ 镍 3 一 忌 


式 中 Lt 是 “ 片 ”的 长 度 ,Tt 是 片 经 过 一 个 节点 所 需 的 时 间 ,L>L: XD。 从 该 式 看 出 ,通信 时 
延 与 节点 数 无 关 。 图 9. 25 是 虫 蚀 方式 的 时 间 关 系 图 及 其 与 存储 转发 的 比较 。 


(9.4) 


一 - 
L/B 
NI1 
数据 
一 -一 一 一 
N2 [ 
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N4 | 
一 时 间 
(a) 存储 转发 
TwnH 
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NI1 
N2 
N3 国 
N4 [ 
一 时 间 
(b) 虫 蚀 方式 


图 9.25 存储 转发 与 虫 他方 式 的 时 间 比 较 


虫 蚀 方式 的 优点 是 : 每 个 节点 的 缓冲 器 较 小 ,易于 VLSI 实现 ; 所 有 较 小 的 网 络 传输 
延迟 ; 加 通 道 共 享 性 好 ,利用 率 高 ; 田 易于 实现 选 播 和 广播 通信 模式 。 

然而 , 虫 蚀 方式 也 有 缺点 。 当 消息 的 一 片 被 阻塞 时 ,整个 消息 的 所 有 片 都 将 被 阻塞 在 所 
在 节点 ,占用 了 节点 资源 。 


9.5.2 死 镇 与 虚拟 通道 


1. 虚拟 通道 

虚拟 通道 是 两 个 节点 间 的 逻辑 链接 , 它 由 源 节点 的 片 缓冲 区 、 节 点 间 的 物理 通道 以 及 接 
收 节点 的 片 缓冲 区 组 成 。 图 9. 26 说 明了 4 条 虚拟 通道 共享 一 条 物理 通道 的 概念 。 这 里 , 源 
节点 和 接收 节点 各 有 4 个 片 缓冲 区 。 当 物理 通道 分 配给 某 对 缓冲 区 时 ,这 一 对 的 源 缓冲 区 
和 接收 缓冲 区 就 形成 了 一 条 虚拟 通道 。 物 理 通 道 是 由 所 有 的 虚拟 通道 分 时 共享 的 。 除 了 有 
关 的 缓冲 区 和 通道 以 外 ,还 必须 用 某 些 通道 状态 来 区 分 不 同 的 虚拟 通道 。 源 缓冲 区 存放 等 


互 过 网 络 


待 使 用 通道 的 片 。 接 收 缓冲 区 存放 由 通道 刚刚 传送 过 来 的 片 。 通 道 ( 电 缆 或 光纤 ) 是 它们 之 
间 的 通信 媒介 。 


物理 通道 


一 一 | | i 


源 节点 中 的 片 缓冲 区 目的 节点 中 的 片 缓冲 区 
图 9.26 4 条 虚拟 通道 以 片 传 递 为 基础 分 时 地 共享 一 条 物理 通道 


虚拟 通道 也 可 以 用 双向 通道 实现 。 把 两 条 单 向 通道 组 合 在 一 起 可 以 构成 一 条 双向 通 
道 。 这 不 仅 增加 了 利用 率 ,还 可 使 通道 的 带宽 加 倍 。 

2. 避免 死 锁 

缓冲 区 或 通道 上 的 循环 等 待 会 引起 死 锁 。 例 如 ,图 9. 27(a) 中 因 出 现 循环 的 通道 相关 
而 产生 死 锁 。 利 用 虚拟 通道 方法 可 以 避免 这 个 死 锁 ,可 以 增加 两 条 虚拟 通道 V3 和 V4, 如 
图 9.27(b) 所 示 。 此 时 的 通道 相关 循环 变 成 了 如 图 9. 27(c) 所 示 的 螺旋 线 , 从 而 避免 了 死 
锁 。 但 是 增加 虚拟 通道 可 能 会 使 每 个 请 求 可 用 的 有 效 通道 带宽 降低 。 为 此 , 当 实现 数目 很 
大 的 虚拟 通道 时 需要 用 高 速 的 多 路 选择 开关 。 


0 a、 
cl C3 Cl C3 v3 
EB [7 四 过 [oy ) 时 
T @ 


(a) 通道 死 锁 (b) 增加 虚拟 通道 (c) 利用 虚拟 通道 后 的 通道 相关 图 
图 9.27 利用 虚拟 通道 减少 死 锁 


9.5.3 流 控 制 策略 


当 两 个 或 更 多 的 包 在 某 个 节点 为 竞争 缓冲 区 或 通道 资源 而 发 生 冲 突 时 ,必须 使 用 预先 
确定 好 的 策略 来 解决 冲突 。 下 面 就 来 讨论 这 个 问题 。 我 们 要 寻找 的 是 不 会 引起 拥挤 或 死 锁 
的 控制 网 络 流量 的 策略 。 在 此 基础 上 ,论述 为 一 对 一 通信 所 设计 的 确定 寻 径 算法 和 自 适应 
寻 径 算法 。 
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1. 包 冲 突 的 解决 

为 了 通过 通道 在 两 个 相 邻 节点 之 间 传 送 一 个 片 ,要 同时 具备 三 个 条 件 : 四 源 缓冲 区 已 
存 有 该 片 ; @ 通 道 已 分 配 好 ; 回 接 收 缓冲 区 准备 接收 该 片 。 

当 两 个 包 到 达 同 一 个 节点 时 ,它们 可 能 都 在 请 求 同 一 个 接收 缓冲 器 或 者 同一 个 输出 通 
道 , 这 时 必须 对 两 个 问题 进行 仲裁 : 四 把 通道 分 配给 哪个 包 ? 加 如 何 处 理 被 通道 拒绝 的 包 ? 
图 9. 28 给 出 了 4 种 解决 方案 。 这 里 假设 把 通道 分 配给 第 一 个 包 ,第 二 个 包 被 拒绝 。 


(a) 用 缓冲 实现 虚拟 通道 (b) 阻塞 流 控制 


包 1 绕道 通道 包 1 
2 
站队 光 | 包 ?2 输出 通道 


(c) 丢弃 并 重 发 (d) 阻塞 后 绕道 
图 9.28 解决 两 个 包 请 求 同 一 条 输出 通道 发 生 冲 突 时 的 流 控制 方法 


(1) 把 第 二 个 包 暂 存在 缓冲 区 (图 9. 28(a))。 

设置 两 个 缓冲 区 ,一 个 是 包 缓 冲 区 , 另 一 个 是 片 缓冲 区 。 将 第 一 个 包 分 配给 片 缓冲 区 直 
接送 往 输出 通道 ,而 第 二 个 包 则 被 放 人 包 缓 冲 区 。 当 以 后 通道 变 为 可 用 时 ,再 来 传输 第 二 个 
包 。 这 种 方案 的 优点 是 不 会 浪费 已 经 分 配 了 的 资源 ,但 它 要 求 节点 中 有 一 个 足够 大 的 缓冲 
器 来 存放 整个 信息 包 。 

这 种 方法 实际 上 是 存储 转发 和 虫 蚀 寻 径 两 种 方法 的 折 中 。 当 不 发 生 冲 突 时 ,就 如 同 虫 
蚀 寻 径 方法 一 样 地 工作 。 在 最 坏 情况 下 , 它 就 像 存储 转发 寻 径 方法 一 样 地 工作 。 

(2) 阻塞 第 二 个 包 ( 图 9. 28(b) ) 。 

纯粹 的 虫 蚀 方式 在 发 生 包 冲突 时 ,采用 阻塞 方法 。 即 把 第 一 个 包 送 入 片 缓冲 区 ,同时 用 
门 控 将 第 二 个 包 阻 塞 。 不 过 ,并 没有 把 这 个 包 丢 弃 。 

(3) 丢弃 第 二 个 包 ( 图 9.28(c) ) 。 

把 第 一 个 包 送 入 片 缓冲 区 ,并 把 第 二 个 包 丢弃 。 

(4) 绕道 Cdetour)( 图 9. 28(d) ) 。 

把 第 一 个 包 送 入 片 缓冲 区 ,而 把 第 二 个 包 导 向 其 他 通道 传输 。 

在 上 述 方法 中 ,丢弃 法 有 可 能 会 造成 严重 的 资源 浪费 ,而 且 要 求 重新 进行 被 丢弃 包 的 传 
输 与 确认 。 这 种 策略 现在 已 很 少 采 用 .因为 它 的 包 传 输 率 不 稳定 。 绕 道 法 在 包 寻 径 方 面 提 
供 了 更 多 的 灵活 性 ,但 为 了 到 达 目 的 节点 ,可 能 要 花费 超过 实际 需要 的 通道 资源 ,造成 浪费 。 

Connection Machine 和 Denelcor HEP 机 器 采用 了 绕道 法 。 而 有 些 多 计算 机 则 是 把 上 
述 方法 中 的 一 些 方法 结合 起 来 使 用 ,以 便 获 得 它们 的 优点 。 


互 过 网 络 


2. 确定 性 寻 径 和 自 适应 寻 径 

常用 的 寻 径 方法 有 两 种 : 确定 性 寻 径 和 自 适应 寻 径 。 在 确定 性 寻 径 中 ,通信 路 径 完 
由 源 节点 地 址 和 目的 地 址 来 决定 ,也 就 是 说 , 寻 径 路 径 是 预先 唯一 地 确定 好 了 的 ,而 与 网 络 
的 状况 无 关 。 在 自 适应 寻 径 方法 中 ,通信 的 通路 每 一 次 都 要 根据 资源 或 者 网 络 的 情况 来 选 
择 。 这 样 就 可 以 避 开 拥挤 的 或 者 有 故障 的 节点 ,从 而 使 网 络 的 利用 率 得 到 改进 。 

不 管 采用 哪 一 种 寻 径 ,都 希望 不 会 产生 死 锁 。 

下 面 介 绍 两 种 确定 性 寻 径 算法 。 这 两 种 算法 都 是 建立 在 维 序 概念 之 上 的 。 对 于 一 个 多 
维 网 络 来 说 , 维 序 寻 径 要 求 对 后 继 通 道 的 选择 是 按照 各 维 的 顺序 来 进行 的 。 对 于 二 维 的 网 
格 网 络 来 说 ,这 种 寻 径 方 法 被 称 为 X-Y 寻 径 ,因为 它 首先 沿 X 维 方向 进行 寻 径 ,然后 再 沿 Y 
维 方向 寻找 路 径 。 对 于 超 立 方 体 来 说 ,这 种 寻 径 方法 被 称 为 E-cube 寻 径 。 这 个 名 称 是 其 提 
出 者 Sullivan 和 Bashkow 所 起 的 。 

对 于 给 定 的 任意 一 个 源 节点 ;二 (xi,yi) 和 任意 一 个 目的 节点 d= 一 (za ,yz), 从 出 发 ， 
先 沿 X 轴 方 向 前 进 ,直到 找到 d 所 在 的 列 xz, ;然后 再 沿 Y 轴 方 向 前 进 ,直到 找到 目标 节点 
(ZX2 ,ys)。 

例 9.3 对 于 如 图 9. 29 所 示 的 二 维 网 格 ,确定 以 下 4 组 * 源 节点 -目的 节点 ”所 需要 的 
路 经 。 


0,7 -| 1 57| 6,7 7| 


0,3 13|- 23 133 人 5143 关 53| 6,3 73| 
下 
了 
0,2 12| 2,2 32 4,2 s2| 6,2 7?| 
下 
1 
0,1 1| 21 六 ”| 3 三 ”| 41 四 国 | 图 os 四 
y 
1 
0,0 10l 2,0 3,0 4.0 s0| 6,0 70| 
xX 


图 9.29 64(8X8) 个 节点 二 维 网 格 计 算 机 的 X-Y 寻 径 算法 示例 


(2,1) 到 (7,6); 
(0,7) 到 (4,5); 
(6,4) 到 (2,0); 
(5,3) 到 (1,5)。 
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解 

(1) 所 需要 的 路 径 如 图 9. 29 所 示 。 其 中 ， 

(2,1) 到 (7,6) 需 要 用 到 的 是 一 条 东 - 北 路 径 ; 

(0,7) 到 (4,5) 需 要 用 到 的 是 一 条 东 - 南 路 径 ; 

(6,4) 到 (2,0) 需 要 用 到 的 是 一 条 西 -南路 径 ; 

(5,3) 到 (1,5) 需 要 用 到 的 是 一 条 西 - 北 路 径 。 

(2) 超 立 方 体 的 E-cube 寻 径 。 

考虑 一 个 由 N 三 2” 个 节点 构成 的 n 方 体 ,每 个 节点 的 编号 是 形 为 6 二 56,16,-，…b1bo 的 


二 进 制 编码 。 设 源 节点 为 * 一 sw-is-z siso* 目 的 节点 d 二 ds-1d-2…did。。 现 在 要 确定 一 
条 从 ;到 d 的 步 数 最 少 的 路 径 。 


设 


和 


ET 


卫 咏 


将 这 个 n 方 体 的 各 维 表 示 成 i 二 1,2,…,n, 其 中 第 i 维 对 应 于 节点 地 址 中 的 第 i 一 1 位 。 
v 三 vy-1vs-2"…wivo 是 路 径 中 的 任 一 节点 。 路 径 可 以 根据 以 下 算法 唯一 地 确定 : 

@ 计算 方向 位 7;==5;_1d;_1 ,其 中 i=1,2,…,n。 

令 v= 二 s,i 王 1, 反复 执 行 以 下 步骤 : 

@ 如 果 产 =1, 则 从 当前 节点 寻 径 到 下 一 节点 四 2 于: ;否则 ,就 跳 过 这 一 步 。 

@ i<-i 十 1。 如 果 in, 则 转 第 @ 步 ,否则 退出 。 

例 9.4 假设 有 一 个 N=16 个 节点 的 4 立方体, 每 个 节点 的 二 进 制 编码 如 图 9. 30 所 


。 请 寻找 一 条 从 节点 0110 到 1101 的 距离 最 短 的 路 径 。 


解 :==0110, d==1101 
第 一 步 : 计算 方向 位 (rrsrm) 王 0110 中 1101=1011。 
令 v=s=0110,i=1。 


第 二 步 ; r=1， 
所 以 从 v==0110 寻 径 到 v2"==0110@0001==0111， 
i 一 ;十 1 一 2。 
第 三 步 : r,=1， 
所 以 从 v=0111 寻 径 到 v 由 2 一: 王 0110 中 0010 王 0101 ， 
i 一 i 十 1 一 3。 
第 四 步 : 六 一 0, 所 以 跳 过 一 步 ， 
i 一 i 十 1 一 4。 
第 五 步 : x 二 1， 


所 以 从 v= 二 0101 寻 径 到 v 申 2 全 :天 0101 四 1000 王 1101 ,结束 。 
因此 路 径 为 0110 习 0111 一 0101 王 1101, 如 图 9. 30 中 灰色 的 节点 、 实 线 和 箭头 所 示 。 


5.4 选 播 和 广播 寻 径 算法 


多 计算 机 网 络 中 会 出 现 以 下 4 种 通信 模式 : 

单 播 Cunicast) : 对 应 于 一 对 一 的 通信 情况 , 即 一 个 源 节点 发 送 消息 到 一 个 目的 节点 。 
选 播 (multicast) : 对 应 于 一 到 多 的 通信 情况 , 即 一 个 源 节 点 发 送 同 一 消息 到 多 个 目的 节点 。 
广播 (broadcast) : 对 应 于 一 到 全 体 的 通信 情况 , 即 一 个 源 节点 发 送 同 一 消息 到 全 部 


点 


源 : s=0110 

目的 : d=1101 

路 径 : 0110 一 0111 
一 0101 一 1101 


1000 1001 
图 9. 30 16 个 节点 超 立 方 体 计算 机 的 E-cube 寻 径 


会 议 (conference) : 对 应 于 多 到 多 的 通信 情况 。 

通道 流量 和 通信 时 延 是 常用 的 两 个 参数 。 通 道 流量 可 用 传输 有 关 消 息 所 使 用 的 通道 数 
来 表示 。 通 信 时 延 则 用 包 的 最 大 传输 时 间 来 表示 。 

优化 的 寻 径 网 络 应 能 以 最 小 流量 和 最 小 时 延 实现 相关 的 通信 模式 。 然 而 ,这 两 个 参数 
并 不 是 毫 不 相关 的 。 达 到 最 小 流量 的 同时 ,并 不 一 定 能 达到 最 小 时 延 。 相 反 的 情况 也 是 
如 此 。 

这 与 所 使 用 的 交换 技术 有 关 , 在 存储 转发 网 络 中 时 延 是 最 重要 的 问题 ,而 在 虫 创 网络 中 
流量 对 效率 的 影响 则 更 大 。 

下 面 以 网 格 网 络 为 例 , 讨 论 选 播 和 广播 。 

图 9.31 是 在 3X4 网 格 上 实现 的 选 播 寻 径 。 源 节点 用 S 表示 ,传送 一 个 包 到 标号 为 
Di (i 二 1,2,…,5) 的 5 个 目的 节点 。 目 的 节点 为 5 个 选 播 可 以 用 5 次 单 播 来 实现 ,如 图 9. 31(a) 


所 示 。X-Y 寻 径 的 流量 需要 用 1 十 3 十 4 十 3 十 2 二 13 条 通道 。 到 D3 的 路 径 最 长 ,所 以 时 延 
是 4。 
D2 D3 D2 FF D3 
i f f 
D4 一 | D4 
4 
=E | 
站 1 = 沁 S 二 D5 DI Ss -| -| D5 
(a) 5 次 单 播 ， 流 量 为 13， 距 离 为 4 (b) 流量 为 7， 距 离 为 4 的 选 播 方式 
D2 + D3 ee 3 FF=|4 
i t Tt 
D4 | a 
lI t 
Dl = St 一 | D5 1 FSsHFH=1lF 2 
(c) 流量 为 6， 距 离 5 的 选 播 方式 (d) 通过 树 结构 广播 给 所 有 节点 


9.31 3X4 网 格 计算 机 上 的 多 次 单 播 . 选 播 模 式 和 广播 树 


CD 
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选 播 可 以 用 下 述 方法 实现 , 即 在 一 个 中 间 节 点 上 复制 所 传送 的 包 ,然后 把 该 包 的 多 个 副 
本 送 到 目的 节点 ,这 样 可 以 大 大 减少 通道 流量 。 

图 9. 31(b) 和 图 9. 31(c) 给 出 了 两 种 选 播 寻 径 模 式 ,流量 分 别 为 7 和 6。 在 虫 亿 网 络 中 ， 
用 图 9. 31(c) 的 选 播 寻 径 模式 比较 好 。 在 存储 转发 网 络 中 , 则 用 图 9. 31(b) 的 寻 径 模式 比较 
好 ,时 延 较 短 。 

使 用 一 棵 4 层 的 生成 树 可 以 把 一 个 包 从 节点 S 广播 到 所 有 的 网 络 节点 ,如 图 9. 31(d) 
所 示 。 其 中 节点 中 的 数字 表示 树 的 层次 号 。 到 达 树 的 第 i 层 上 节点 的 时 延 为 i。 这 种 广播 
树 产生 的 时 延 和 流量 最 小 。 


习 题 9 
9.1 解释 以 下 名 词 。 
互连网 络 互 连 函 数 网 络 规模 节点 度 
节点 距离 网 络 直径 等 分 带宽 对 称 网 络 
静态 网 络 动态 网 络 虚拟 通道 自 适应 寻 径 


确定 寻 径 方法 线路 交换 存储 转发 虫 蚀 方式 

9.2 设 Cube 为 立方 体 互 连 函数 ,c 为 均匀 洗 牌 函数 .8 为 蝶 式 函数 ,po 为 反 位 序 函 数 ， 
分 别 求 Cubes (0110)、 oc (0110)、BC0110)、p'* (0110) 。 

9.3 当 两 个 包 在 传输 过 程 中 争 用 某 个 中 间 节 点 的 同一 条 输出 通道 时 ,有 哪 4 种 解决 包 
冲突 问题 的 方法 ? 

9.4 评价 互连网 络 性 能 的 主要 参数 有 哪些 ? 

9.5 多 级 互连网 络 的 控制 方式 指 什么 ?通常 有 哪 几 种 ? 

9.6 N=16 的 4 级 立方 体 互连网 络 ,级 号 从 输入 到 输出 为 0 一 3 ,采用 级 控制 ,如 将 其 
中 的 第 一 级 开关 置 为 * 直 连 ”, 不 能 实现 哪些 节点 之 间 的 配对 通信 ? 为 什么 ? 

9.7 试 比较 可 用 于 动态 互 连 的 总 线 、 交 又 开关 和 多 级 互连网 络 的 硬件 复杂 度 和 带宽 。 

9.8 在 有 16 个 处 理 器 的 混 洗 交 换 网 络 中 , 若 要 使 第 0 号 处 理 器 与 第 15 号 处 理 器 相 
连 , 需 要 经 过 多 少 次 混 洗 和 交换 ? 

9.9 设 函 数 的 自 变 量 是 十 进 制 数 表示 的 处 理 机 编号 。 现 有 32 台 处 理 机 ,其 编号 为 0， 
A 

(1) 分 别 计算 下 列 互 连 函 数 。 

Cubes(12) c(8) B(9) PM2I1;3(28) Cubeo(o(4)) 
o(Cubeo (18)) 

(2) 用 Cube。 和 a 构成 混 洗 交换 网 (每 步 只 能 使 用 Cube。 和 o 一次), 网 络 直 径 是 多 少 ? 
从 5 号 处 理 机 发 送 数 据 到 7 号 处 理 机 ,最 短路 径 要 经 过 几 步 ? 请 列 出 经 过 的 处 理 机 编号 。 

(3) 采用 移 数 网 络 构 成 互联 网 ,网 络 直径 是 多 少 ? 节点 度 是 多 少 ? 与 2 号 处 理 机 距离 
最 远 的 是 几 号 处 理 机 ? 

9.10 N=16 的 互连网 络 的 输入 端 号 和 输出 端 号 分 别 为 0 一 15。 若 互连网 络 实现 的 互 
连 可 以 用 互 连 函 数 表示 为 F(zaszzzrizo) 一 zozizazs ,那么 ,是 否 可 以 用 循环 表示 法 表示 该 互 
连 网 络 实现 的 互 连 ? 如果 可 以 ,请 写 出 其 循环 表示 。 
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9.11 N=16 的 STARAN 网 络 在 级 控制 方式 下 实现 分 组 交换 置换 ,如 果实 现 的 分 组 
交换 置换 是 : 首先 是 4 组 4 元 交换 ,然后 是 2 组 8 元 交换 ,最 后 是 1 组 16 元 交换 , 写 出 网 络 
实现 的 互 连 函 数 。 

9.12 具有 N=2" 个 输入 端的 Omega 网 络 ,采用 单元 控制 。 

(1) N 个 输入 总 共 应 有 多 少 种 不 同 的 排列 ? 

(2) 该 Omega 网 络 通过 一 次 可 以 实现 的 置换 总 共 可 有 多 少 种 ? 

(3) 若 N= 一 8 ,计算 一 次 通过 能 实现 的 置换 数 占 全 部 排列 的 百分比 。 

9.13 用 一 个 N=8 的 三 级 Omega 网 络 连接 8 台 处 理 机 (Po 一 Pi),8 台 处 理 机 的 输出 
端 分 别 依 序 连接 Omega 网 络 的 8 个 输入 端 0 一 7.8 个 处 理 机 的 输入 端 分 别 依 序 连接 Omega 
网 络 的 8 个 输出 端 0 一 7。 如 果 处 理 机 Ps 要 把 数据 播送 给 处 理 机 Pu 一 P, ,处 理 机 Ps 要 把 数 
据 播 送 给 处 理 机 Ps 一 P; ,那么 ,Omega 网 络 能 和 否 同时 为 它们 的 播送 要 求实 现 连接 ? 画 出 实 
现 播送 的 Omega 网 络 的 开关 状态 图 。 
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所 章 
1]0 多 处 理 机 


内 容 提要 
(1) 对 称 式 共享 存储 器 的 系统 结构 ; 
(2) 分 布 式 共享 存储 器 的 系统 结构 ; 
(3) 同步 ; 

(4) 同时 多 线程 

(5) 大 规模 并 行 处 理 机 ; 

(6) 多 处 理 机 实例 1 
(7) 多 处 理 机 实例 2 


自 20 世纪 80 年 代 中 期 以 来 , 随 着 微 处 理 器 的 发 展 , 单 处 理 机 的 性 能 达到 了 前 所 未 有 的 
高 速 增长 。 在 1986 年 至 2002 年 之 间 , 计 算 机 性 能 的 增长 率 达 到 了 每 年 50% 以 上 。 然 而 ， 
从 2002 年 开始 , 单 处 理 机 性 能 的 年 增长 率 下 降 到 了 约 20%。 这 是 因为 进一步 大 幅度 地 提 
高 单 处 理 器 性 能 的 努力 受到 了 一 些 难 题 的 严重 挑战 。 这 些 难题 包括 功 耗 问题 以 及 开发 ILP 
的 空间 正在 缩小 等 。 

虽然 认为 单 处 理 机 系统 结构 发 展 正在 走向 尽头 的 观点 有 些 偏激 。 但 近 些 年 人 们 确实 开 
始 转 向 了 多 处 理 机 。Intel 于 2004 年 宣布 放弃 其 高 性 能 单 处 理 器 项 目 ,转向 多 核 (mnulti- 
core) 的 研究 和 开发 ,这 是 通过 在 单个 芯片 上 实现 多 个 处 理 器 来 提高 性 能 的 。IBM Sun、 
AMD 等 公司 也 纷纷 采用 了 这 一 途径 。 

在 过 去 的 十 多 年 中 ,多 处 理 机 正 起 着 越 来 越 重要 的 作用 ,并行 计 算 机 软件 也 有 了 较 大 的 
发 展 。 设 计 者 们 在 不 断 地 研制 用 多 个 微 处 理 器 构建 性 能 更 高 的 服务 器 和 超级 计算 机 。 这 些 
计算 机 能 够 充分 利用 商品 化 微 处 理 器 所 具有 的 高 性 能 价格 比 的 优势 。 可 以 说 ,我 们 现在 已 
经 开始 进入 了 多 处 理 机 将 唱主角 的 新 时 期 。 


Tl1; 
Origin 2000。 


10.1 3 引 
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由 于 篇 幅 的 限制 ,本 章 将 重点 放 在 多 处 理 机 设计 的 主流 一 一 中 小 规模 的 计算 机 上 (处 理 
器 的 个 数 不 超 过 32)。 无 论 在 现存 数量 上 还 是 在 价值 总 值 上 ,这 些 计算 机 目前 都 占 主导 地 
位 。 对 于 大 规模 处 理 机 ,只 做 简要 介绍 。 


10.1.1 并 行 计算 机 系统 结构 的 分 类 
按照 Flynn 分 类 法 ,可 把 计算 机 分 成 SISD、SIMD、MISD 和 MIMD 4 类 。 许 多 早期 的 
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并 行 处 理 机 是 SIMD 计算 机 ,但 近年 来 ,MIMD 已 经 成 为 通用 多 处 理 机 系统 结构 的 选择 。 
这 是 因为 MIMD 有 很 强 的 灵活 性 ,并 且 能 充分 利用 现 有 微 处 理 器 的 性 价 比 优势 。 

计算 机 机 群 系统 (cluster) 是 一 类 被 广泛 采用 的 MIMD 计算 机 。 它 通常 采用 标准 组 件 
和 标准 网 络 技术 ,这 样 就 可 以 尽 可 能 地 采用 已 经 商业 化 了 的 技术 (而 不 是 专门 技术 )。 本 书 
的 第 11 章 将 专门 讨论 机 群 。 

在 20 世纪 90 年 代 , 芯 片 容 量 ( 即 晶体 管 数 ) 的 增加 使 得 人 们 能 够 在 一 块 芯片 上 实现 多 
个 处 理 器 。 这 种 方法 最 初 叫 片 内 多 处 理 器 或 者 单 片 多 处 理 器 ,而 现在 则 叫 多 核 (multi- 
core) ,因为 它 是 在 一 块 芯片 上 实现 多 个 处 理 器 核 。 在 这 种 处 理 器 中 ,多 个 核 一 般 会 共享 一 
些 资源 ,例如 第 二 /第 三 级 Cache、 存 储 器 或 者 I/O 总 线 。 近 期 推出 的 一 些微 处 理 器 ,如 IBM 
的 Power 5,Sun 公司 的 Tl,Intel 的 Pentium D 和 Xeon-MP 等 ,都 是 多 核 和 多 线程 的 。 

现 有 的 MIMD 计算 机 分 为 两 类 ,每 一 类 代表 了 一 种 存储 器 的 结构 和 互 连 策略 。 由 于 多 
处 理 机 的 规模 大 小 这 个 概念 的 含义 是 随时 间 而 变化 的 ,所 以 我 们 用 存储 器 的 组 织 结 构 来 区 
分 这 些 机 器 。 

第 一 类 机 器 称 为 集中 式 共 享 存 储 器 结构 (Centralized Shared-Memory Architecture ) 。 
这 类 多 处 理 机 在 目前 最 多 是 由 几 十 个 处 理 器 构成 的 。 由 于 处 理 器 个 数 较 少 ,各 处 理 器 可 共 
享 一 个 集中 式 的 物理 存储 器 。 因 为 只 有 单一 的 主 存 , 而 且 这 个 主 存 相 对 于 各 处 理 器 的 关系 
是 对 称 的 ,所 以 这 类 机 器 经 常 被 称 为 对 称 式 共 享 存储 器 多 处 理 机 (Symmetric shared- 
memory Multi Processor,SMP)。 这 种 系统 结构 也 称 为 UMA(Uniform Memory Access) 结 
构 , 这 是 因为 从 各 处 理 器 访问 存储 器 所 花 的 时 间 相 同 。SMP 结构 是 目前 最 流行 的 结构 。 
10. 2 节 将 详细 讨论 这 种 系统 结构 。 

图 10. 1 是 对 称 式 共享 存储 器 多 处 理 机 结 
构 的 示意 图 。 图 中 多 个 “处 理 器 -Cache” 模 块 
共享 同一 个 物理 存储 器 ,其 连接 一 般 采 用 一 条 
或 多 条 总 线 , 或 者 采用 交叉 开关 。 

第 二 类 是 分 布 式 存储 器 多 处 理 机 。 在 这 
类 机 器 中 ,存储 器 在 物理 上 是 分 布 的 。 它 支持 
构建 规模 较 大 的 多 处 理 机 系统 。 为 了 支持 较 
多 的 处 理 器 ,存储 器 必须 分 布 到 各 个 处 理 器 上 ,不 能 采用 集中 式 的 存储 器 ,否则 存储 器 将 不 
能 满足 因 处 理 器 个 数 较 多 而 带 来 的 带宽 要 求 。 处 理 器 个 数 较 多 还 要 求 有 高 带宽 的 互连网 
络 。 图 10.2 给 出 了 这 类 多 处 理 机 的 结构 示意 图 。 系 统 中 的 每 个 节点 由 处 理 器 及 其 Cache、 存 
储 器 、1/O 以 及 互连网 络 接口 组 成 。 近 几 年 , 随 着 处 理 器 性 能 的 迅速 提高 和 处 理 器 对 存储 器 带 
宽 要 求 的 不 断 增 加 , 越 来 越 多 中 小 规模 的 多 处 理 机 系统 也 逐渐 开始 采用 分 布 式 存储 器 结构 。 

将 存储 器 分 布 到 各 节点 有 两 个 优点 : 四 如 果 大 多 数 的 访 存 都 是 针对 本 地 节点 的 存储 器 
进行 的 ,就 可 以 降低 对 存储 器 和 互连网 络 的 带宽 要 求 ; @@ 对 本 地 存储 器 的 访问 延迟 时 间 小 。 
分 布 式 存储 器 系统 结构 最 主要 的 缺点 是 处 理 器 之 间 的 通信 较为 复杂 (因为 有 了 多 个 分 布 的 
存储 器 ) , 且 各 处 理 器 之 间 的 访问 延迟 较 大 。 

通常 情况 下 ,1/O 和 存储 器 一 样 也 分 布 于 多 处 理 机 的 各 节点 当中 。 每 个 节点 内 还 可 能 
包含 个 数 较 少 (例如 2 一 8) 的 处 理 器 ,这 些 处 理 器 之 间 可 采用 另 一 种 互 连 技术 (例如 总 线 ) 相 
互 连 接 形成 簇 ,这样 形成 的 节点 叫做 超级 节点 。 由 于 节点 是 否 为 超级 节点 对 机 器 的 基本 运 


图 10.1 对 称 式 共 享 存储 器 多 处 理 机 的 基本 结构 
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行 原理 没有 影响 ,采用 分 布 式 存储 器 结构 的 计算 机 之 间 的 主要 差别 在 于 通信 方法 和 分 布 式 
存储 器 的 逻辑 结构 方面 ,所 以 我 们 只 讨论 每 个 节点 只 有 一 个 处 理 器 的 情况 。10. 3 节 将 对 分 
布 式 存储 器 多 处 理 机 展开 详细 讨论 。 


CPUO CPU2 CPU3 
Cache Cache Cache 


存储 器 | || VO | [ 存储 器 | 二 | vo ] | 存储 器 | | vo | [存储 器 | vo 
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存储 器 | 十 | VO | [ 存储 器 | 十 | vo ] [ 存储 器 | 十 | Vo | [存储 器 | vo 
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Cache Cache Cache 


图 10.2 分 布 式 存储 器 多 处 理 机 的 基本 结构 


10.1.2 存储 器 系统 结构 和 通信 机 制 


1. 两 种 存储 器 系统 结构 和 通信 机 制 

如 上 所 述 , 在 大 规模 的 多 处 理 机 中 ,存储 器 在 物理 上 是 分 布 于 各 个 处 理 节 点 中 的 。 但 在 
逻辑 地 址 空间 的 组 织 方 式 以 及 处 理 器 之 间 通 信 的 实现 方法 上 ,有 以 下 两 种 方案 。 

第 一 种 方案 把 物理 上 分 离 的 所 有 存储 器 作为 一 个 统一 的 共享 逻辑 空间 进行 编 址 ,这 样 
任何 一 个 处 理 器 就 都 可 以 访问 该 共享 空间 中 的 任何 一 个 单元 (如 果 它 具有 访问 权 ) 了 ,不 同 
处 理 器 上 的 同一 个 物理 地 址 指向 的 是 同一 个 存储 单元 。 这 类 计算 机 被 称 为 分 布 式 共享 存储 
器 系统 (Distributed Shared-Memory,DSM)。 注 意 . 这 里 的 “共享 ” 指 的 是 地 址 空间 上 是 共 
享 的 ,并 不 意味 着 具有 一 个 集中 的 存储 器 。 与 UMA 相反 ,DSM 计算 机 被 称 为 NUMA 
(Non-Uniform Memory Access) 计 算 机 ,这 是 因为 其 访 存 时 间 取 决 于 数据 在 存储 器 中 的 存 
放 位 置 。 

另 一 种 方案 是 把 每 个 节点 中 的 存储 器 编 址 为 一 个 独立 的 地 址 空间 ,不 同 节点 的 地 址 空 
间 之 间 是 相互 独立 的 。 也 就 是 说 ,整个 系统 的 地 址 空间 是 由 多 个 独立 的 地 址 空间 构成 的 。 
每 个 节点 中 的 存储 器 只 能 由 本 地 的 处 理 器 进行 访问 .远程 的 处 理 器 不 能 直接 对 其 进行 访问 。 
显然 ,与 DSM 不 同 ,不 同 处 理 器 上 的 同一 个 物理 地 址 指向 的 是 不 同 的 存储 单元 ,因为 它们 
指向 的 是 不 同 的 存储 器 。 在 这 里 ,每 一 个 “处 理 器 -存储 器 ”模块 实际 上 是 一 台 单独 的 计算 
机 。 以 前 ,这 种 计算 机 系统 是 由 不 同 的 处 理 节 点 经 专门 的 互连网 络 形成 的 ,而 现在 的 这 种 计 
算 机 系统 多 以 机 群 的 形式 存在 。 

对 于 上 述 两 种 地 址 空间 的 组 织 方案 ,分别 有 相应 的 通信 机 制 。 对 于 共享 地 址 空间 的 计算 
机 系统 来 说 ,是 采用 共享 存储 器 通信 机 制 的 。 处 理 器 之 间 的 通信 是 通过 用 load 和 store 指令 对 
相同 存储 器 地 址 进行 读 / 写 操作 来 实现 的 。 而 对 于 采用 多 个 独立 地 址 空间 的 计算 机 系统 来 说 ， 
数据 通信 要 通过 在 处 理 器 之 间 显 式 地 传递 消息 来 完成 .这 称 为 消息 传递 通信 机 制 。 
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在 消息 传递 多 处 理 机 中 ,处 理 器 之 间 是 通过 发 送 消息 来 进行 通信 的 ,这 些 消息 请 求 进行 
某 些 操作 或 者 传送 数据 。 当 某 个 处 理 器 ( 设 为 A) 要 对 远程 存储 器 上 的 数据 进行 访问 (或 操 
作 ) 时 , 它 就 通过 给 相应 的 远程 处 理 器 ( 设 为 B) 发 送 一 个 消息 来 请 求 数据 (或 对 该 数据 进行 
操作 ) 。 在 这 种 情况 下 ,可 以 把 该 消息 看 成 一 个 远程 进程 调用 (Remote Process Call, RPC)。 
当 目 的 处 理 器 B 接收 到 消息 以 后 ,就 代替 远程 处 理 器 A 对 相应 的 数据 进行 访问 (或 执行 相 
应 的 操作 ) ,然后 发 送 一 个 应 答 消息 给 处 理 器 A, 将 结果 返回 。 

如 果 请 求 方 处 理 器 在 发 送 一 个 请 求 消息 后 ,要 一 直 等 到 收 到 应 答 后 才能 继续 运行 , 则 这 
种 消息 传递 称 为 是 同步 的 。 现 有 许多 计算 机 的 软件 系统 已 对 发 送 和 接收 消息 的 具体 细节 进 
行 了 封装 ,为 编程 人 员 提 供 了 有 力 的 支持 ,使 他 们 能 很 容易 地 进行 消息 通信 ,包括 传送 复杂 
的 参数 和 结果 。 

如 果 数 据 发 送 方 知道 别 的 处 理 器 需要 数据 ,通信 也 可 以 从 数据 发 送 方 而 不 是 数据 接收 
方 开始 ,数据 可 以 不 经 请 求 就 直接 送 往 数据 接收 方 。 这 种 消息 传递 往往 是 可 以 异步 地 进行 
的 ,发 送 方 在 发 出 消息 后 ,可 立即 继续 执行 原来 的 程序 。 通 常 ,接收 方 所 需 的 消息 如 果 还 未 
到 达 , 它 就 需要 等 待 。 此 外 ,如 果 接 收 方 还 未 处 理 完 前 一 个 消息 而 且 缓 冲 器 空间 已 用 完 , 发 
送 方 也 会 因 要 发 送 消息 而 进行 等 待 。 

不 同 多 处 理 机 所 提供 的 消息 传递 机 制 可 能 差别 很 大 ,为 了 便于 程序 移植 ,人 们 提出 了 标 
准 的 消息 传递 库 ( 例 如 MPI) ,这 为 编程 人 员 实 现 消息 传递 提供 了 有 力 的 支持 。 

2. 不 同 通信 机 制 的 优点 

每 种 通信 机 制 都 有 自己 的 优点 ,共享 存储 器 通信 的 主要 优点 是 : 

(1) 与 常用 的 对 称 式 多 处 理 机 使 用 的 通信 机 制 兼容 。 

(2) 当 处 理 器 之 间 通 信和 方式 复杂 或 在 执行 过 程 中 动态 变化 时 ,采用 共享 存储 器 通信 , 编 
程 容 易 , 同 时 在 简化 编译 器 设计 方面 也 占有 优势 。 

(3) 采用 大 家 所 熟悉 的 共享 存储 器 模型 开发 应 用 程序 ,而 把 重点 放 到 解决 对 性 能 影响 
较 大 的 数据 访问 上 。 

(4) 当 通 信 数 据 量 较 小 时 ,通信 开销 较 小 ,带宽 利用 较 好 。 

(5) 可 以 通过 采用 Cache 技术 来 减少 远程 通信 的 频 度 。 这 是 通过 对 所 有 数据 (包括 共 
享 的 和 私有 的 ) 进 行 Cache 缓冲 来 实现 的 。 在 后 面 将 看 到 ,Cache 不 仅 能 减少 访问 共享 数据 
的 延迟 ,而且 能 减少 对 共享 数据 的 访问 冲突 。 

消息 传递 通信 机 制 的 主要 优点 是 : 

(1) 硬件 更 简单 。 特 别 是 在 与 可 扩 放 共享 存储 器 实现 方案 相 比 时 更 是 如 此 。 

(2) 通信 是 显 式 的 ,因此 更 容易 搞 清楚 何 时 发 生 通信 以 及 通信 开销 是 多 少 。 

(3) 显 式 通信 可 以 让 编程 者 重点 注意 并 行 计算 的 主要 通信 开销 ,使 之 有 可 能 开发 出 结 
构 更 好 ,性 能 更 高 的 并 行程 序 。 

(4) 同步 很 自然 地 与 发 送 消息 相关 联 , 能 减少 不 当 的 同步 带 来 错误 的 可 能 性 。 

在 上 述 两 种 通信 模式 中 ,可 以 在 任何 一 种 通信 机 制 硬件 的 基础 上 建立 另外 一 种 通信 模 
式 。 在 共享 存储 器 上 实现 消息 传递 非常 简单 ,因为 发 送 一 条 消息 可 通过 将 一 部 分 地 址 空间 
的 内 容 复制 到 另 一 部 分 地 址 空间 来 实现 。 而 在 实现 消息 传递 的 硬件 上 支持 共享 存储 器 则 困 
难得 多 ,所 有 对 共享 存储 器 的 访问 都 要 依靠 操作 系统 来 进行 地 址 转换 和 存储 保护 ,并 将 存储 器 
访问 转换 为 消息 的 发 送 和 接收 。 此 外 ,load 和 store 一 般 只 访问 少量 的 数据 ,这 种 用 软件 方法 
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实现 的 共享 存储 器 开销 很 大 ,以 至 于 到 无 法 接收 的 程度 ,所 以 其 应 用 范围 是 非常 有 限 的 。 

最 初 的 分 布 式 存储 器 计算 机 均 采用 消息 传递 机 制 ,因为 它 比 较 简单 。 但 近 些 年 来 ,特别 
是 20 世纪 90 年 代 后 半期 以 来 所 设计 的 计算 机 几乎 都 采用 支持 共享 存储 器 通信 。 

尽管 现在 通过 总 线 连接 的 对 称 式 共享 存储 器 计算 机 在 市 场 上 仍 占 主导 地 位 ,但 从 长 远 
来 看 ,在 技术 上 的 趋势 是 朝 着 中 等 规模 的 分 布 式 共 享 存储 器 计算 机 方向 发 展 的 。 


10.1.3 并 行 处 理 面临 的 挑战 


并 行 处 理 面 临 着 两 个 重要 的 挑战 ,一 个 是 程序 中 的 并 行 性 有 限 , 另 一 个 是 相对 较 大 的 通 
信 开 销 。 有 限 的 并 行 性 使 计算 机 要 达到 很 高 的 加 速 比 十 分 困难 ,这 可 以 用 Amdahl 定律 进 
行 解释 。 

例 10.1 假设 想 用 100 个 处 理 器 达到 80 的 加 速 比 , 求 原 计算 程序 中 串 行 部 分 最 多 可 
占 多 大 的 比例 ? 

解 Amdahl 定律 为 


加 速 比 = 二 lL 
可 加 速 部 分 比例 区 
一 青 论 加 环比 十 (1 可 加 速 部 分 比例 ) 


为 简单 起 见 ,假设 程序 只 在 两 种 模式 下 运行 : 使 用 了 所 有 处 理 器 的 并 行 模 式 和 只 用 一 
个 处 理 器 的 串 行 模式 , 则 在 并 行 模 式 下 的 理论 加 速 比 即 为 处 理 器 的 个 数 , 可 加 速 部 分 的 比例 
即 为 并 行 部 分 所 占 的 比例 ,代入 上 式 得 


80 


并 外 比例 (1 一 并 行 比例 ) 
求解 该 式 子 , 可 得 并 行 比例 一 0. 9975 。 

可 以 看 出 ,要 用 100 个 处 理 器 达到 80 的 加 速 比 , 串 行 计算 的 部 分 只 能 占 很 小 的 比例 即 
0.25%。 更 进一步 ,如 果 要 使 加 速 比 与 处 理 器 个 数 的 增长 成 线性 关系 , 则 整个 程序 必须 全 部 
并 行 ,没有 串 行 的 部 分 。 不 过 ,实际 上 程序 并 非 在 完全 并 行 或 串 行 模式 下 运行 的 ,而 是 常常 
介 于 两 者 之 间 , 即 仅仅 使 用 了 一 部 分 处 理 器 。 

第 二 个 挑战 主要 是 指 多 处 理 机 中 远程 访问 的 较 大 延迟 。 在 现 有 的 计算 机 中 ,处 理 器 之 
间 的 数据 通信 大 约 需要 50 一 1000 个 时 钟 周 期 ,这 主要 取决 于 通信 机 制 、 互 连 网 络 的 种 类 和 
机 器 的 规模 。 表 10. 1 列 出 了 在 几 种 不 同 的 共享 存储 器 并 行 计算 机 中 远程 访问 一 个 字 的 典 
型 延迟 。 


表 10.1 远程 访问 一 个 字 的 延迟 时 间 


机 器 通信 机 制 互连网 络 处 理 机 最 大 数量 | 典型 远程 存储 器 访问 时 间 /ns 
Sun Starfire servers | SMP 多 总 线 64 500 
SGI Origin 3000 NUMA | 胖 超 立 方 体 512 500 
Cray T3E NUMA | 三 维 环 网 2048 300 
HP V series SMP 8X8 交叉 开关 32 1000 
HP AlphaServer GS | SMP 开关 总 线 32 400 
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下 面 再 来 看 一 个 简单 的 例子 ,以 进一步 说 明 通 信和 延迟 的 重要 影响 。 

例 10.2 假设 有 一 台 32 个 处 理 器 的 多 处 理 机 ,对 远程 存储 器 的 访问 时 间 为 200ns。 
假设 除了 通信 以 外 ,所 有 其 他 访问 均 命中 局 部 存储 器 。 当 发 出 一 个 远程 请 求 时 ,本 处 理 
器 挂 起 。 处 理 器 的 时 钟 频率 为 2GHz, 如 果 指 令 基 本 的 CPI 为 0.5( 设 所 有 访 存 均 命中 
Cache) , 求 在 没有 远程 访问 的 情况 下 和 有 0.2% 的 指令 需要 远程 访问 的 情况 下 ,前 者 比 后 
者 快 多 少 ? 

解 有 0.2% 远 程 访问 的 计算 机 的 实际 CPI 为 

CPI= 基本 CPI 十 远程 访问 率 X 远程 访问 开销 
二 0.5 十 0.2% X 远程 访问 开销 
远程 访问 开销 为 
远程 访问 时 间 / 时 钟 周期 时 间 = 200ns/0. 5ns = 400 个 时 钟 周期 
所 以 CPI==0. 5 十 0. 2% X400=1.3 

因此 在 没有 远程 访问 的 情况 下 的 计算 机 速度 是 有 0.2% 远 程 访问 的 计算 机 速度 的 
1. 3/0.5==2.6 售 。 

实际 中 的 性 能 分 析 会 复杂 得 多 ,因为 一 些 非 通信 的 访 存 操作 可 能 不 命中 局 部 存储 器 ,而 
且 远 程 访问 开销 也 并 非 是 一 个 常量 。 例 如 ,因为 多 个 远程 访问 引起 的 全 局 互连网 络 冲突 会 
使 远程 访问 的 延迟 加 大 。 

应 用 程序 中 并 行 性 不 足 的 问题 主要 是 通过 采用 并 行 性 更 好 的 算法 来 解决 的 。 而 减少 
远程 访问 延迟 则 既 可 以 依靠 系统 结构 来 实现 ,也 可 以 通过 编程 技术 来 实现 。 我 们 既 可 以 
采用 硬件 的 方法 ,例如 用 Cache 来 缓冲 共享 数据 ,也 可 以 采用 软件 的 方法 对 数据 重新 进行 
组 织 , 使 得 更 多 的 访问 变 成 局 部 访问 。 我 们 还 可 以 采用 预 取 或 多 线程 技术 来 减少 延迟 的 

在 并 行 处 理 中 ,负载 平衡 .同步 和 存储 器 访问 延迟 等 影响 性 能 的 关键 因素 常 依赖 于 应 用 
程序 的 高 层 特性 ,如 数据 的 分 配 , 并 行 算法 的 结构 以 及 在 空间 和 时 间 上 对 数据 的 访问 模式 
等 。 依 据 应 用 特点 可 把 多 机 工作 负载 大 致 分 成 两 类 : 单个 程序 在 多 处 理 机 上 的 并 行 工作 负 
载 和 多 个 程序 在 多 处 理 机 上 的 并 行 工作 负载 。 

反映 并 行程 序 性 能 的 一 个 重要 的 量度 是 计算 /通信 上 比值。 如 果 比 值 较 高 ,就 意味 着 应 用 
程序 中 相对 于 每 次 数据 通信 要 进行 较 多 的 计算 。 如 前 所 述 ,通信 在 并 行 计算 中 的 开销 是 很 
大 的 ,因而 较 高 的 计算 /通信 比值 十 分 有 益 。 在 一 个 并 行 处 理 环境 下 , 当 要 增加 处 理 器 的 数 
目 或 增 大 所 求解 问题 的 规模 ,或 者 两 者 同时 都 增 大 时 ,都 要 对 计算 /通信 比值 的 变化 加 以 分 
析 。 例 如 ,在 增加 处 理 器 数目 的 同时 知道 这 个 比值 的 变化 ,会 对 应 用 程序 能 获得 多 大 的 加 速 
比 有 清楚 的 了 解 。 同 样 , 了 解 程序 处 理 的 数据 集合 大 小 的 变化 对 这 个 比值 的 影响 也 是 至 关 
重要 的 。 当 处 理 器 增多 时 ,每 个 处 理 器 计算 量 减 小 而 通信 量 增 大 。 当 问题 规模 增 大 时 ,通信 
量 的 变化 会 更 加 复杂 ,这 与 算法 的 细节 有 关 。 

通常 状况 下 ,计算 /通信 比值 随 着 处 理 的 数据 规模 的 增 大 而 增加 , 随 着 处 理 器 数目 的 增 
加 而 减少 。 这 告诉 我 们 用 更 多 的 处 理 器 来 求解 一 个 固定 大 小 的 问题 会 导致 不 利 因素 的 增 
加 ,因为 处 理 器 之 间 的 通信 量 加 大 了 。 这 同时 也 告诉 我 们 增加 处 理 器 时 应 该 调整 数据 的 规 
模 , 从 而 使 通信 的 时 间 尽 量 保持 不 变 。 


圳 己 
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10.2 对称 式 共享 存储 器 的 系统 结构 


在 第 7 章 已 经 讨论 过 ,多 级 Cache 可 以 降低 处 理 器 对 存储 器 带宽 的 要 求 。 如 果 每 个 处 
理 器 对 存储 器 带宽 的 要 求 都 降低 了 ,那么 多 个 处 理 器 就 可 以 共享 一 个 存储 器 。 自 20 世纪 
80 年 代 以 来 , 随 着 微 处 理 器 逐渐 成 为 主流 ,人 们 设计 出 了 许多 通过 总 线 共享 一 个 单独 物理 
存储 器 的 小 规模 多 处 理 机 。 由 于 大 容量 Cache 很 大 程度 地 降低 了 对 总 线 带 宽 的 要 求 , 当 处 
理 机 规模 较 小 时 ,这 种 计算 机 十 分 经 济 。 以 往 的 这 种 计算 机 一 般 是 将 CPU 和 Cache 做 在 一 
块 板 上 ,然后 插入 底板 总 线 。 后 来 ,每 块 板 上 的 处 理 器 数目 达到 了 4 个 ,而 近 些 年 , 则 能 在 一 
个 单独 的 芯片 上 实现 2 一 8 个 处 理 器 核 。 例 如 ,Sun 公司 在 2006 年 发 布 的 Tl 就 是 一 个 8 核 
的 多 处 理 器 。10.7 节 将 详细 介绍 T1。 

对 称 式 共享 存储 器 系统 结构 一 般 都 支持 对 共享 数据 和 私有 数据 的 Cache 缓存 。 私 有 数 
据 是 指 只 供 一 个 处 理 器 使 用 的 数据 ,而 共享 数据 则 是 指 供 多 个 处 理 器 共同 使 用 的 数据 。 处 
理 器 之 间 可 以 通过 读 / 写 共享 数据 来 实现 通信 。 

私有 数据 进入 Cache, 使 得 处 理 器 对 它们 的 访问 可 以 在 Cache 中 完成 ,从 而 减少 平均 访 
存 时 间 和 减少 对 存储 器 带宽 的 要 求 。 当 允许 共享 数据 进入 Cache 时 ,共享 数据 可 能 会 在 多 
个 Cache 中 被 复制 ,这 样 相应 的 处 理 器 就 可 以 在 自己 的 Cache 中 找到 这 些 数据 。 这 样 做 不 仅 
可 以 减少 访 存 时 间 和 对 存储 器 带宽 的 要 求 ,而 且 还 可 以 减少 多 个 处 理 器 同时 读 取 共 享 数据 所 
产生 的 冲突 。 不 过 ,共享 数据 进入 Cache 也 带 来 了 一 个 新 的 问题 , 即 Cache 的 一 致 性 问题 。 


10.2.1 多 处 理 机 Cache 一 致 性 


如 果 人 允许 共享 数据 进入 Cache, 就 可 能 出 现 多 个 处 理 器 的 Cache 中 都 有 同一 存储 块 的 副本 
的 情况 , 当 其 中 某 个 处 理 器 对 其 Cache 中 的 数据 进行 修改 后 ,就 会 使 得 其 Cache 中 的 数据 与 其 
他 Cache 中 的 数据 不 一 致 。 这 就 是 多 处 理 机 的 Cache 一 致 性 (Cache coherence) 问 题 。 

图 10. 3 通过 一 个 例子 来 说 明 这 个 问题 。 假 设 初 始 状况 是 CPU A 和 CPU B 的 Cache 
中 都 有 存储 单元 X 的 副本 ,其 值 都 是 m, 如 图 10. 3(a) 所 示 。 并 假设 这 两 个 Cache 都 采用 写 
直达 法 。 当 CPU A 对 X 进行 写 人 后 ,Cache A 和 存储 器 中 相应 单元 的 值 都 变 成 了 pp, 但 
Cache B 中 的 值 仍 为 mw。 如 果 CPU B 读 取 X, 则 它 得 到 的 仍 是 旧 值 mm。 

对 于 一 致 性 ,我 们 可 以 有 这 样 的 说 法 : 如 果 对 某 个 数据 项 的 任何 读 操作 均 可 得 到 其 最 
新 写 入 的 值 , 则 认为 这 个 存储 系统 是 一 致 的 。 这 个 定义 尽管 很 直观 ,但 却 不 够 清楚 和 全 面 ， 
现实 中 的 情况 要 复杂 得 多 。 这 个 简单 的 定义 包括 了 存储 系统 行为 的 两 个 不 同方 面 : 第 一 个 
方面 是 指 读 操作 得 到 的 是 什么 值 (what) ,第 二 个 方面 是 指 什么 时 候 读 操作 才能 得 到 新 写 人 
的 值 (when)。 

如 果 一 个 存储 器 满足 以 下 三 点 , 则 称 该 存储 器 是 一 致 的 。 

(1) 处 理 器 P 在 对 存储 单元 X 进行 一 次 写 之 后 又 对 X 进行 读 ,在 这 读 和 写 之 间 没 有 其 
他 处 理 器 对 X 进行 写 , 则 了 读 到 的 值 总 是 刚 写 进去 的 值 。 

(2) 处 理 器 P 对 存储 单元 X 进行 写 之 后 , 另 一 处 理 器 Q 对 X 进行 读 ,在 这 读 和 写 之 间 
没有 其 他 对 X 的 写 , 则 Q 读 到 的 值 应 为 P 写 进去 的 值 。 

(3) 对 同一 存储 单元 的 写 是 串 行 化 的 。 即 任意 两 个 处 理 器 对 同一 存储 单元 的 两 次 写 ， 
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图 10.3 两 个 处 理 器 (A 和 B) 读 写 所 引起 的 Cache 一 致 性 问题 


从 各 个 处 理 器 的 角度 来 看 顺序 都 是 相同 的 。 例 如 ,对 同一 地 址 先 写 1, 再 写 2, 则 任何 处 理 器 
都 不 会 先 读 到 2, 然 后 再 读 到 1。 

第 一 条 属性 保证 了 程序 顺序 ,即使 在 单 处 理 机 中 也 要 求 如 此 。 第 二 条 属性 给 出 了 存储 
器 一 致 性 的 概念 。 如 果 一 个 处 理 器 不 断 地 读 取 到 旧 的 数据 ,就 可 以 肯定 地 说 这 个 存储 器 是 
不 一 致 的 。 

写 操作 的 串 行 化 难 理解 一 些 ,但 也 同样 重要 。 假 设 处 理 器 Pl 对 存储 单元 X 进行 一 次 
写 ,接着 处 理 器 P2 对 X 也 进行 一 次 写 , 如 果 不 保证 写 操作 串 行 化 ,就 可 能 出 现 这 样 的 情况 : 
某 个 处 理 器 先 看 到 P2 写 的 值 而 后 看 到 P1 写 的 值 。 解 决 这 个 问题 最 简单 的 方法 是 把 写 操 
作 串 行 化 ,使 得 对 同一 存储 器 单元 所 进行 的 写 操作 顺序 在 所 有 处 理 器 看 来 都 是 相同 的 ,这 种 
属性 称 为 写 串 行 化 (Write Serialization ) 。 

尽管 上 面 三 条 已 充分 地 保证 了 一 致 性 ,但 什么 时 候 才 能 获得 写 进去 的 值 仍 是 一 个 重要 
的 问题 。 通 常 不 可 能 要 求 在 一 个 处 理 器 对 X 写 后 马上 就 能 在 另外 的 处 理 器 上 读 出 这 一 值 。 
因为 此 时 写 和 人 的 值 有 可 能 在 这 一 时 刻 还 没 离开 进行 写 的 处 理 器 ,所 以 总 是 有 延迟 的 。 为 了 
简化 起 见 ,在 后 面 的 讨论 中 作 以 下 假设 : 四 直到 所 有 的 处 理 器 均 看 到 了 写 的 结果 ,这 个 写 操 
作 才 算 完成 ; @ 处 理 器 的 任何 访 存 均 不 能 改变 写 的 顺序 。 就 是 说 ,允许 处 理 器 对 读 进行 重 
排序 ,但 必须 以 程序 规定 的 顺序 进行 写 。 


10.2.2 实现 一 致 性 的 基本 方案 


在 支持 Cache 一 致 性 的 多 处 理 机 中 ,Cache 实现 了 共享 数据 的 迁移 (migration) 和 复制 
(replication) 功 能 。 共 享 数据 的 迁移 是 把 远程 的 共享 数据 拷贝 一 份 , 迁 入 本 地 Cache 供 本 处 
理 器 使 用 ,从 而 减少 对 远程 共享 数据 的 访问 延迟 ,也 减少 了 对 共享 存储 器 带宽 的 要 求 。 共 享 
数据 的 复制 则 是 把 多 个 处 理 器 需要 同时 读 取 的 共享 数据 在 这 些 处 理 器 的 本 地 Cache 中 各 存 
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放 一 个 副本 。 复 制 不 仅 减 少 了 访问 共享 数据 的 延迟 ,而 且 还 减少 了 访问 共享 数据 所 产生 的 
冲突 。 共 享 数据 的 迁移 和 复制 对 于 提高 访问 共享 数据 的 性 能 来 说 是 非常 重要 的 。 一 般 情 况 
下 ,小 规模 多 处 理 机 是 采用 硬件 的 方法 来 实现 Cache 的 一 致 性 的 。 

在 多 个 处 理 器 中 用 来 维护 一 致 性 的 协议 称 为 Cache 一 致 性 协议 (Cache-coherent 
protocol) 。 实 现 Cache 一 致 性 协议 的 关键 是 跟踪 共享 数据 块 的 状态 。 目 前 有 两 类 协议 , 它 
们 采用 了 不 同 技术 来 跟踪 共享 数据 的 状态 。 

。 目录 式 协 议 (directory) 一 一 物理 存储 器 中 数据 块 的 共享 状态 被 保存 在 一 个 称 为 目 

录 的 地 方 。 目 录 式 协议 的 实现 开销 比 监听 式 协议 的 稍微 大 一 些 , 但 可 用 于 实现 更 大 
规模 的 多 处 理 机 。 

。 监听 式 协议 (snooping) 一 一 当 物 理 存 储 器 中 的 数据 块 被 调和 Cache 时 ,其 共享 状态 

信息 与 该 数据 块 一 起 放 在 该 Cache 中 。 系 统 中 没有 集中 的 状态 表 。 这 些 Cache 通 
常 连 在 共享 存储 器 的 总 线 上 。 当 某 个 Cache 需要 访问 存储 器 时 , 它 会 把 请 求 放 到 总 
线 上 广播 出 去 ,其 他 各 个 Cache 控制 器 通过 监听 总 线 ( 它 们 一 直 在 监听 ) 来 判断 它们 
是 否 有 总 线 上 请 求 的 数据 块 。 如 果 有 ,就 进行 相应 的 操作 。 

本 节 后 面 着 重 讨论 监听 式 协议 。 目 录 式 协议 将 在 10. 3 节 中 详细 论述 。 

在 使 用 多 个 微 处 理 器 且 每 个 Cache 都 与 单一 共享 存储 器 相连 组 成 的 多 处 理 机 中 ,一般 
都 采用 监听 协议 ,因为 这 种 协议 可 直接 利用 已 有 的 物理 连接 (连接 到 存储 器 的 总 线 ) 。 

可 以 采用 两 种 方法 来 解决 上 述 的 Cache 一 致 性 问题 。 一 种 方法 是 保证 : 在 处 理 器 对 某 
个 数据 项 进行 写 人 之 前 , 它 拥 有 对 该 数据 项 的 唯一 访问 权 。 具 体 做 法 是 在 处 理 器 ( 设 为 P) 
进行 写 人 操作 之 前 ,把 所 有 其 他 Cache 中 的 副本 全 部 作废 ,这 称 为 写作 废 协议 (Write 
Invalidate) 。 它 是 目前 最 常用 的 协议 ,无 论 是 采用 监听 协议 还 是 采用 目录 协议 都 是 如 此 。 
唯一 的 访问 权 保证 了 在 进行 写 入 操作 时 其 他 处 理 器 上 不 存在 任何 副本 。 如 果 其 他 处 理 器 接 
着 要 访问 该 数据 ,就 会 产生 不 命中 ,从 而 从 存储 器 取出 新 的 数据 副本 ( 写 直 达 法 ) ,或 者 从 了 
的 Cache 中 获得 新 的 数据 ( 写 回 法 ) 。 

要 保证 进行 写 的 处 理 器 具有 唯一 的 访问 权 , 就 必须 禁止 其 他 处 理 器 和 它 同 时 进行 写 操 
作 。 但 如 果 两 个 处 理 器 要 同时 进行 写 操作 ,该 如 何 处 理 ? 这 可 以 通过 竞争 来 解决 ,它们 中 只 
有 一 个 会 在 竞争 中 获胜 一 一 获得 访问 权 , 而 另 一 个 处 理 器 中 的 副本 以 及 其 他 处 理 器 中 的 副 
本 (如 果 有 的 话 ) 就 会 作废 。 竞 争 失败 的 处 理 器 要 完成 写 操作 ,就 必须 先 获得 一 份 新 的 数据 
副本 。 该 副本 已 经 包含 了 更 新 后 的 数据 。 显 然 , 这 种 协议 保证 了 写 操作 的 串 行 化 。 

下 面 通过 一 个 例子 来 看 看 写作 废 协 议 如 何 保 持 数 据 一 致 性 ,如 图 10.4 所 示 。 初 始 状 态 
是 : CPU A、CPU B.CPU C 都 有 X 的 副本 。 在 CPU A 要 对 X 进行 写 人 时 , 需 先 作废 CPU 
B 和 CPU C 中 的 副本 ,然后 再 将 户 写 入 Cache A 的 副本 中 ,同时 用 该 数据 更 新 主 存单 元 X。 

另外 一 种 协议 是 写 更 新 协议 (Write Update)。 在 这 种 协议 中 , 当 一 个 处 理 器 对 某 数据 
项 进行 写 人 时 , 它 把 该 新 数据 广播 给 其 他 所 有 Cache。 这 些 Cache 用 该 新 数据 对 其 中 的 副 
本 (如 果 有 的 话 ) 进 行 更 新 。 当 然 , 如 果 知 道 其 他 Cache 中 都 没有 相应 的 副本 ,就 不 必 进 行 广 
播 和 更 新 。 这 样 处 理 能 够 减少 实现 该 协议 所 需 的 带宽 。 

图 10. 5 给 出 了 写 更 新 协议 操作 过 程 的 一 个 例子 。 这 里 假设 三 个 Cache 都 有 X 的 副 
本 。 当 CPU A 将 数据 p 写 入 Cache A 中 的 副本 时 ,将 p 广播 (在 这 个 例子 中 是 通过 总 线 ) 
给 所 有 的 Cache 的 ,这 些 Cache 用 p 更 新 其 中 的 副本 。 显 然 , 此 后 CPU A 和 CPU B 读 取 X 
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图 10.4 ”监听 总 线 、 写 作废 协议 举例 (采用 写 直达 法 ) 


时 ,都 将 在 其 Cache 中 命中 ,得 到 最 新 的 值 。 由 于 这 里 采用 写 直 达 法 ,所 以 CPU A 还 要 将 p 
写 人 存储 器 中 的 X。 如 果 采 用 写 回 法 , 则 不 需要 写 人 存储 器 。 
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图 10.5 监听 总 线 、 写 更 新 协议 举例 (采用 写 直 达 法 ) 


在 这 两 种 协议 中 ,写作 上 废 协议 的 应 用 比较 广泛 。 大 多 数 的 计算 机 都 采用 写作 废 协议 。 
写 更 新 和 写作 废 协议 在 性 能 上 的 差别 主要 来 自 以 下 三 个 方面 : 

(1) 在 对 同一 个 数据 进行 多 次 写 操作 而 中 间 无 读 操作 的 情况 下 , 写 更 新 协议 需 进行 多 
次 写 广播 操作 ,而 写作 废 协 议 只 需 一 次 作废 操作 。 

(2) 在 对 同一 Cache 块 的 多 个 字 进 行 写 操作 的 情况 下 , 写 更 新 协议 对 于 每 一 个 写 操作 
都 要 进行 一 次 广播 ,而 写作 废 协 议 仅 在 对 该 块 的 第 一 次 写 时 进行 作废 操作 即 可 。 写 作废 是 
针对 Cache 块 进行 操作 的 ,而 写 更 新 则 是 针对 字 ( 或 字 节 ) 进 行 的 。 
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(3) 考虑 从 一 个 处 理 器 A 进行 写 操作 后 到 另 一 个 处 理 器 B 能 读 到 该 写 入 数据 之 间 的 
延迟 时 间 。 在 写 更 新 协议 中 ,这 个 延迟 时 间 比 较 小 ,因为 它 在 进行 写 操作 时 ,立即 更 新 了 所 
有 其 他 Cache 中 的 副本 ,包括 Cache B 中 的 副本 (假设 有 此 副本 )。 而 在 写作 废 协议 中 ,由 于 
在 处 理 器 A 进行 写 操作 时 已 经 作废 了 Cache B 中 的 副本 ,所 以 当 处 理 器 B 进行 读 操作 时 需 
要 等 待 ,直到 新 的 副本 被 调和 Cache。 

在 基于 总 线 的 多 处 理 机 中 ,总 线 和 存储 器 带宽 是 最 紧缺 的 资源 ,而 写作 废 协 议 所 耗费 的 
总 线 和 存储 器 带宽 比较 少 , 因 此 写作 废 协议 成 为 绝 大 多 数 多 处 理 机 系统 的 选择 。 当 然 ,在 设 
计 处 理 器 个 数 不 多 (2 一 4) 的 多 处 理 机 时 ,处理 器 之 间 紧 密 耦合 , 写 更 新 法 所 要 求 的 带宽 还 可 
以 接受 。 尽 管 如 此 ,考虑 到 处 理 器 性 能 不 断 提 高 的 趋势 以 及 相关 带宽 需求 的 增长 ,更 新 模式 
很 少 被 采用 ,因此 本 章 的 剩余 部 分 只 关注 写作 废 协议 。 


10.2.3 监听 协议 的 实现 


1. 监听 协议 的 基本 实现 技术 

实现 监听 协议 的 关键 有 三 个 方面 : 

(1) 处 理 器 之 间 通 过 一 个 可 以 实现 广播 的 互 连 机 制 相连 ,通常 采用 的 是 总 线 。 

(2) 当 一 个 处 理 器 的 Cache 响应 本 地 CPU 的 访问 时 ,如 果 它 涉及 全 局 操作 ,例如 需要 
访问 共享 的 存储 器 或 需要 其 他 处 理 器 中 的 Cache 进行 相应 的 操作 (例如 作废 等 ), 其 Cache 
控制 器 就 要 在 获得 总 线 的 控制 权 后 ,在 总 线 上 发 出 相应 的 消息 (如 图 10. 4 中 的 Cache A 
所 示 ) 。 

(3) 所 有 处 理 器 都 一 直 在 监听 总 线 , 它 们 检测 总 线 上 的 地 址 在 它们 的 Cache 中 是 否 有 
副本 。 若 有 , 则 响应 该 消息 ,并 进行 相应 的 操作 (如 图 10.4 中 的 Cache B 所 示 )。 

获取 总 线 控制 权 的 顺序 性 保证 了 写 操作 的 串 行 化 ,因为 当 两 个 处 理 器 要 同时 对 同一 数 
据 块 进行 写 操作 时 ,必然 是 只 有 其 中 一 个 处 理 器 先 获 得 总 线 控制 权 , 并 作废 所 有 其 他 处 理 器 
上 的 相关 副本 。 另 一 处 理 器 要 等 待 前 一 个 处 理 器 的 写 操作 完成 后 ,再 排队 竞争 总 线 控制 权 。 
这 保证 了 写 操作 严格 地 按 顺 序 进行 。 所 有 的 一 致 性 协议 都 要 采用 某 种 方法 来 保证 对 同一 个 
Cache 块 的 写 访问 的 串 行 化 。 

虽然 不 同 的 监听 协议 在 具体 实现 上 有 些 差别 ,但 在 许多 方面 是 相同 的 。Cache 发 送 到 


总 线 上 的 消息 主要 有 以 下 两 种 : 
»° RdMiss 读 不 命中 。 
。 WtMiss 写 不 命中 。 


RdMiss 和 WtMiss 分 别 表 示 本 地 CPU 对 Cache 进行 读 访 问 和 写 访 问 时 不 命中 ,这 时 
都 需要 通过 总 线 找到 相应 数据 块 的 最 新 副本 ,然后 调 入 本 地 Cache 中 。 尽 管 这 个 副本 不 一 
定 在 存储 器 中 ,但 为 了 尽快 获得 这 个 副本 ,一 般 是 马上 启动 对 存储 器 相关 块 的 访问 。 对 于 写 
直达 Cache 来 说 ,由 于 所 有 写 入 的 数据 都 同时 被 写 回 存储 器 ,所 以 其 最 新 值 总 可 以 从 存储 器 
中 找到 。 而 对 于 写 回 法 Cache 来 说 ,难度 就 大 一 些 了 .因为 这 个 最 新 副本 有 可 能 是 在 其 他 某 
个 处 理 器 的 Cache 中 (尚未 写 回 存储 器 )。 在 这 种 情况 下 ,将 由 该 Cache 向 请 求 方 处 理 器 提 
供 该 块 ,并 终止 由 RdMiss 或 WtMiss 所 引发 的 对 存储 器 的 访问 。 当 然 ,RdMiss 和 WtMiss 
还 将 使 得 相关 Cache 块 的 状态 发 生 改变 。 

有 的 监听 协议 还 增设 了 一 条 Invalidate 消息 .用 来 通知 其 他 各 处 理 器 作废 其 Cache 中 
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相应 的 副本 。Invalidate 和 WtMiss 的 区 别 在 于 Invalidate 不 引起 调 块 。 

第 7 章 中 介绍 过 , 单 Cache 情况 下 写 回 法 Cache 对 于 每 一 个 Cache 块 都 设置 了 一 个 修 
改 位 ,用 于 记录 该 块 是 否 被 修改 过 。 在 采用 写 回 法 的 多 Cache 中 ,我 们 可 以 直接 利用 这 个 标 
志 位 来 实现 一 致 性 。 将 一 个 数据 进行 写 人 时 ,只 写 人 Cache( 如 果 不 命中 ,就 要 先 从 存储 器 
调 块 ) ,而 不 直接 写 回 存储 器 。 这 时 这 个 块 的 修改 位 被 置 位 ,表示 该 块 中 保存 的 是 整个 系统 
中 唯一 的 最 新 副本 ,存储 器 中 的 副本 是 过 时 了 的 ,而 且 所 有 其 他 Cache 中 也 没有 其 副本 。 

每 个 处 理 器 (实际 上 是 Cache 控制 器 ) 都 监听 其 他 处 理 器 放 到 总 线 上 的 地 址 ,如 果 某 个 处 
理 器 发 现 它 拥 有 被 请 求 数据 块 的 一 个 最 新 副本 , 它 就 把 这 个 数据 块 送 给 发 出 请 求 的 处 理 器 。 
与 写 直达 法 相 比 , 尽 管 写 回 法 在 实现 的 复杂 度 上 有 所 增加 ,但 由 于 写 回 法 Cache 所 需 的 存储 器 
带宽 较 低 , 它 在 多 处 理 机 实现 上 仍 很 受 欢 迎 。 在 后 面 的 讨论 中 ,只 考虑 写 回 法 Cache。 

Cache 本 来 就 有 的 标识 (tag) 可 直接 用 来 实现 监听 。 通 过 把 总 线 上 的 地 址 和 Cache 内 
的 标识 进行 比较 ,就 能 找到 相应 的 Cache 块 ( 如 果 有 的 话 ) ,然后 对 其 进行 相应 的 处 理 。 每 个 
块 的 有 效 位 使 得 我 们 能 很 容易 地 实现 作废 机 制 。 当 要 作废 一 个 块 时 ,只 需 将 其 有 效 位 置 为 
无 效 即 可 。 对 于 CPU 读 不 命中 的 情况 ,处 理 比较 简单 ,Cache 控制 器 向 总 线 发 RdMiss 消 
息 , 并 启动 从 主 存 的 读 块 操作 ,准备 调和 人 Cache。 当 然 , 如 果 存 储 器 中 的 块 不 是 最 新 的 ,最 新 
的 副本 是 在 某 个 Cache 中 ,就 要 由 该 Cache 提供 数据 ,并 终止 对 存储 器 的 访问 。 

对 于 写 操作 来 说 ,希望 能 够 知道 其 他 处 理 器 中 是 否 有 该 写 入 数据 的 副本 ,因为 如 果 没 
有 ,就 不 用 把 这 个 写 操 作 放 到 总 线 上 ,从 而 减少 所 需要 的 带宽 以 及 这 个 写 操作 所 花 的 时 间 。 
这 可 以 通过 给 每 个 Cache 块 增设 一 个 共享 位 来 实现 。 该 共享 位 用 来 表示 该 块 是 被 多 个 处 理 
器 所 共享 (共享 位 为 *1”) ,还 是 仅 被 某 个 处 理 器 所 独占 (共享 位 为 “0”)。 拥 有 该 数据 块 的 唯 
一 副本 的 处 理 器 通常 被 称 为 该 块 的 拥有 者 (Owner) 。 

当 一 个 块 处 于 独占 状态 时 ,其 他 处 理 器 中 没有 该 块 的 副本 ,因此 不 必 向 总 线 发 
Invalidate 消息 。 否 则 就 是 处 于 共享 状态 ,这 时 要 向 总 线 发 Invalidate 消息 ,作废 所 有 其 他 
Cache 中 的 副本 ,同时 将 本 地 Cache 中 该 块 的 共享 标志 位 置 零 。 如 果 后 面 又 有 另 一 处 理 器 
再 读 这 个 块 , 则 其 状态 将 再 次 转化 为 共享 。 由 于 每 个 Cache 都 在 监听 总 线 上 的 消息 ,所 以 它 
们 知道 什么 时 候 另 一 个 处 理 器 请 求 访问 该 块 ,从 而 把 其 状态 改 为 共享 。 

每 一 次 总 线 操作 都 要 检查 Cache 中 的 地 址 标识 ,这 会 打扰 处 理 器 对 Cache 的 访问 。 必 
须 设 法 减少 这 种 打扰 。 一 种 方法 是 设置 两 套 标 识 , 分 别 用 于 处 理 来 自 CPU 的 访问 和 来 自 
总 线 的 访问 。 当 然 ,Cache 不 命中 时 ,处 理 器 要 对 两 套 标识 进行 操作 。 类 伏地, 如果 监听 到 
了 一 个 相 匹配 的 地 址 ,也 要 对 两 套 Cache 的 标识 进行 操作 。 

在 多 级 Cache 中 ,还 可 以 采用 另 一 种 方法 , 即 把 监听 的 操作 请 求 交 给 第 二 级 Cache 来 处 
理 。 由 于 处 理 器 只 在 第 一 级 Cache 不 命中 时 才 会 访问 第 二 级 Cache, 而 第 一 级 Cache 的 命 
中 率 往往 都 很 高 ,所 以 这 种 方法 是 可 行 的。 不 过 , 当 监 听 机 制 在 第 二 级 Cache 中 发 现 相 匹配 
的 项 目 时 ,就 会 与 处 理 器 争 用 第 一 级 Cache。 在 监听 机 制 获得 使 用 权 后 ,要 修改 状态 且 可 能 
需要 访问 第 一 级 Cache 中 的 数据 。 此 外 ,这 两 级 Cache 必须 满足 包容 关系 , 即 第 一 级 Cache 
中 的 内 容 是 第 二 级 Cache 中 内 容 的 一 个 子 集 。 

2. 监听 协议 举例 

实现 监听 协议 通常 是 在 每 个 节点 内 嵌入 一 个 有 限 状 态 控制 器 。 该 控制 器 根据 来 自 处 理 
器 或 总 线 的 请 求 以 及 Cache 块 的 状态 ,做 出 相应 的 响应 ,包括 改变 所 选择 的 Cache 块 的 状 
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态 ,通过 总 线 访 问 存储 器 ,或 者 作废 Cache 块 等 。 

根据 第 7 章 ,我 们 知道 ,在 单 Cache 中 ,每 次 CPU 进行 读 操作 时 ,Cache 最 后 都 要 把 所 
访问 的 数据 送 给 CPU。 而 在 每 次 进行 写 操作 时 ,最 后 CPU 都 要 把 数据 写 和 人 Cache。 在 多 
Cache 中 也 是 如 此 。 在 后 面 的 讨论 中 ,为 简洁 起 见 , 我 们 省 略 这 些 操作 ,而 把 重点 放 在 实现 
一 致 性 的 操作 上 。 

下 面 要 介绍 的 监听 协议 实例 比较 简单 。 每 个 数据 块 的 状态 只 能 取 以 下 三 种 状态 中 的 
二 种。 
(1) 无 效 (Invalid, 了 1) : 表示 Cache 中 该 块 的 内 容 为 无 效 。 显 然 ,所 要 访问 的 块 尚未 进入 
Cache。 

(2) 共享 (Shared,S): 表示 该 块 可 能 处 于 共享 状态 , 即 在 多 个 (三 2) 处 理 器 中 都 有 副 
本 。 这 些 副 本 都 相同 , 且 与 存储 器 中 相应 的 块 相同 。 之 所 以 说 可 能 ,是 因为 它 包含 了 这 种 特 
殊 情 况 : 在 整个 系统 中 ,该 块 只 在 一 个 Cache 中 有 副本 ,而且 该 副本 与 存储 器 中 相应 的 块 相 
同 。 对 处 于 共享 状态 的 块 只 能 进行 读 操作 。 如 果 要 进行 写 操作 ,就 要 先 把 其 状态 改 为 “已 

(3) 已 修改 (Modified,M) : 表示 该 块 已 经 被 修改 过 ,并 且 还 没 写 人 存储 器 。 这 时 该 块 
中 的 内 容 是 最 新 的 ,而 且 是 整个 系统 中 唯一 的 最 新 副本 。 处 于 已 修改 状态 的 块 由 本 地 人 处理 
器 独占 。 该 处 理 器 不 仅 可 以 对 它 进 行 读 操作 ,而 且 可 以 对 它 进行 写 操作 。 

下 面 来 讨论 在 各 种 情况 下 监听 协议 所 进行 的 操作 。 

1) 响应 来 自 处 理 器 的 请 求 

对 不 发 生 替 换 和 发 生 替 换 的 两 种 情况 分 别 进行 讨论 。 

(1) 不 发 生 替 换 的 情况 ,参见 图 10. 6(a) 。 


CPU 写 命中 /发 Invalidate 


CPU 读 命中 


CPU 写 命中 CPU 读 命中 


CPU 写 /发 WtMiss CPU 读 /发 RdMiss 


I: 无 效 (Invalid) 
S : 共享 (Shared)， 只 读 
M : 已 修改 (Modified)， 可 读 写 


(a) 一 般 CPU 访 问 的 情况 及 操作 


CPU 写 不 命中 / 写 回 ， CPU 读 不 命中 / 写 回 ， 发 RdMiss CPU 读 不 命中 / 
发 WtMiss 发 RdMiss 


CPU 写 不 命中 /发 WtMiss 
(b) 发 生 蔡 换 的 情况 及 操作 
图 10.6 写作 废 协议 中 (采用 写 回 法 ),Cache 块 的 状态 转换 图 工 : 响应 来 自 CPU 的 请 求 
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Q@ 状态 为 I。 

在 这 种 情况 下 的 操作 与 单 Cache 中 的 情况 类 似 。 

当 CPU 要 进行 读 访问 时 ,由 于 所 要 访问 的 块 尚未 调 入 Cache, 所 以 发 生 读 不 命中 时 , 需 
要 向 总 线 发 RdMiss 消息 。 调 人 该 块 后 ,把 其 状态 改 为 共享 (S) 。 这 时 该 数据 块 在 Cache 中 
有 唯一 的 一 个 副本 , 且 该 副本 与 存储 器 中 的 相应 内 容 相同 。 

当 CPU 要 进行 写 访问 时 ,由 于 所 要 访问 的 块 尚未 调 入 Cache, 所 以 发 生 写 不 命中 ,需要 
向 总 线 发 WtMiss 消息 。 调 入 该 块 后 ,将 其 状态 改 为 已 修改 (M)。 这 时 该 数据 块 在 Cache 
中 有 唯一 的 一 个 副本 (最 新 ), 且 该 副本 与 存储 器 中 的 相应 内 容 不 同 。 存 储 器 中 的 内 容 已 
过 时 。 

@ 状态 为 S。 

当 CPU 要 进行 读 访 问 时 ,如 果 命 中 , 则 状态 不 变 。 和 否则 就 需要 进行 蔡 换 ,这 种 情况 后 
面 再 讨论 。 

当 CPU 要 进行 写 访 问 时 , 需 先 把 Cache 中 相应 块 的 状态 改 为 已 修改 (M) ,然后 再 把 数 
据 写 人 ,同时 要 作废 所 有 其 他 Cache 中 的 副本 。 在 命中 的 情况 下 ,无 需 调 块 , 只 要 向 总 线 发 
Invalidate 消息 即 可 。 如 果 不 命中 ,就 需要 进行 替换 。 这 种 情况 后 面 再 讨论 。 

@ 状态 为 M。 

在 这 种 状态 下 , 当 Cache 读 命中 或 写 命中 时 ,状态 不 变 。 但 当 不 命中 时 ,就 需要 进行 替 
换 , 这 种 情况 后 面 再 讨论 。 

(2) 发 生 替 换 的 情况 。 

当 CPU 访问 Cache 不 命中 而 按 映像 规则 所 映射 到 的 块 或 组 中 已 经 没有 空闲 块 (状态 
为 DD 的 时 候 ,就 要 进行 奉 换 。 这 时 就 根据 替换 算法 在 Cache 中 选择 一 个 块 作为 被 替换 的 
块 ,该 块 的 内 容 将 被 新 调 人 的 块 所 替换 。 图 10.6(b) 给 出 了 在 发 生 替换 情况 下 的 状态 转换 
及 操作 。 

@ 状态 为 S。 

当 发 生 读 不 命中 时 ,就 向 总 线 发 RdMiss, 调 人 一 个 新 块 并 替换 原来 的 块 ,并 且 该 Cache 
块 的 状态 不 用 改变 。 因 为 处 理 器 是 进行 读 访 问 的 。 

当 发 生 写 不 命中 时 ,就 向 总 线 发 WtMiss, 也 是 调 入 一 个 新 块 并 替换 原来 的 块 , 但 要 把 
该 块 的 状态 改 为 M。 这 是 因为 处 理 器 是 进行 写 访问 的 。 

@ 状态 为 M。 

这 种 情况 与 类 似 ,只 是 在 写 不 命中 时 .Cache 块 的 状态 不 用 改变 ,而 在 读 不 命中 时 ,要 
把 状态 改 为 S$。 此 外 ,还 有 关键 的 一 点 ,就 是 在 该 块 被 替换 之 前 ,需要 将 其 中 的 内 容 先 写 回 
存储 器 。 这 是 因为 该 块 是 整个 系统 中 唯一 的 最 新 副本 。 

2) 响应 来 自 总 线 的 请 求 

每 个 处 理 器 都 在 监视 总 线 上 的 消息 和 地 址 , 当 发 现 有 与 总 线 上 的 地 址 相 匹配 的 Cache 
块 时 ,就 要 根据 该 块 的 状态 以 及 总 线 上 的 消息 ,进行 相应 的 处 理 , 见 图 10. 7。 

(1) 状态 为 S。 

这 种 状态 表示 该 块 是 一 个 只 读 副本 。 当 远程 处 理 器 (相对 于 本 地 处 理 器 而 言 ) 因 进行 读 
访问 不 命中 而 在 总 线 上 发 RdMiss 时 ,由 于 调 块 后 不 对 该 块 进行 写 操 作 , 所 以 本 地 Cache 中 
该 块 的 状态 不 变 。 但 如 果 远 程 节点 是 因为 要 进行 写 操作 而 往 总 线 上 发 WtMiss 或 
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Invalidate 消息 的 , 则 需要 作废 本 地 Cache 中 的 该 块 ,将 其 状态 改 为 I。 

(2) 状态 为 M。 

这 种 状态 表示 该 块 是 整个 系统 中 唯一 的 最 新 副本 。 不 管 远程 处 理 器 发 的 是 RdMiss 还 
是 WtMiss, 本 Cache 都 需要 将 这 个 唯一 的 副本 写 回 存储 器 ,并 终止 RdMiss 或 WtMiss 引 
发 的 对 存储 器 的 访问 , 改 由 本 Cache 提供 该 块 。 在 状态 方面 ,RdMiss 将 导致 本 地 Cache 中 
该 块 的 状态 变 为 S, 即 该 块 也 变 成 一 个 只 读 的 共享 块 ;而 WtMiss 则 将 其 状态 修改 为 IT, 将 之 
作废 。 这 是 因为 远程 处 理 器 需要 的 是 一 个 独占 的 块 。 

在 上 述 协 议 中 假设 操作 具有 原子 性 (atomic) , 即 其 操作 进行 过 程 中 不 能 被 打 断 ,例如 将 
写 不 命中 的 检测 .申请 总 线 和 接收 响应 作为 一 个 单独 的 原子 操作 。 但 在 实现 时 的 情况 会 比 
这 复杂 得 多 。 


RdMiss/ 写 回 ， 终 止 对 存储 器 的 访问 


WtMiss/ 写 回 ， 
终止 对 存储 器 的 访问 


Invalidate 


图 10.7 写作 废 协议 中 (采用 写 回 法 ),Cache 块 的 状态 转换 图 IT : 响应 来 自 总 线 的 请 求 


10.3 分布 式 共享 存储 器 的 系统 结构 


10.3.1 目录 协议 的 基本 思想 


在 前 面 介绍 的 监听 协议 中 ,每 当 Cache 不 命中 时 ,就 要 与 所 有 其 他 的 Cache 进行 通信 ， 
这 是 通过 总 线 的 广播 以 及 其 他 Cache 的 监听 来 实现 的 。 之 所 以 要 广播 和 监听 ,是 因为 系统 
中 没有 一 个 集中 的 数据 结构 来 记录 Cache 的 状态 ,数据 块 的 状态 是 保存 在 各 自 的 Cache 中 
的 。 所 以 当 一 个 Cache 发 生 不 命中 时 , 它 不 知道 其 他 Cache 中 哪些 拥有 相应 的 副本 ,就 只 好 
在 总 线 上 广播 相应 的 信息 ,让 所 有 其 他 的 Cache 都 来 协助 完成 相关 的 操作 。 这 种 协议 直接 
利用 了 系统 中 已 经 存在 的 总 线 和 Cache 中 的 状态 位 。 因 而 它 具 有 实现 容易 .成 本 较 低 的 优 
点 。 然 而 , 当 系 统 的 规模 变 大 时 , 它 又 是 个 致命 的 弱点 。 大 量 的 总 线 广播 操作 会 使 得 总 线 很 
快 就 成 为 系统 的 瓶颈 。 广 播 和 监听 的 机 制 使 得 监听 一 致 性 协议 的 可 扩 放 性 很 差 。 

为 了 实现 较 大 规模 的 可 扩 放 的 共享 存储 器 多 处 理 机 系统 ,需要 寻找 新 的 一 致 性 协议 来 
代替 监听 协议 ,这 就 是 前 面 提 过 的 目录 协议 。 另 外 ,总 线 的 可 扩 放 性 不 好 ,可 以 改 用 可 扩 放 
性 更 好 的 互连网 络 。 互 连 网 络 能 很 高 效 地 实现 点 到 点 的 通信 。 目 录 协 议 采 用 了 一 个 集中 的 
数据 结构 一 一 目录 。 对 于 存储 器 中 的 每 一 个 可 以 调 入 Cache 的 数据 块 , 在 目录 中 设置 了 一 
条 目录 项 ,用 于 记录 该 块 的 状态 以 及 哪些 Cache 中 有 副本 等 相关 信息 。 这 样 ,对 于 任何 一 个 
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数据 块 ,都 可 以 快速 地 在 唯一 的 一 个 位 置 (根据 该 存储 块 的 地 址 来 确定 ) 中 找到 相关 的 信息 ， 
这 使 得 目录 协议 避免 了 广播 操作 。 

目录 法 常 采用 位 向 量 的 方法 来 记录 哪些 Cache 中 有 副本 ,该 位 向 量 中 的 每 一 位 对 应 于 
一 个 处 理 器 。 例 如 可 以 用 “1” 表 示 相 应 的 处 理 器 的 Cache 有 副本 ,用 “0” 表 示 没 有 副本 。 这 
个 位 向 量 的 长 度 与 处 理 器 的 个 数 成 正比 。 为 便于 讨论 ,后 面 我 们 将 把 由 位 向 量 指定 的 处 理 
机 的 集合 称 为 共享 集 S。 

目录 协议 根据 该 项 目 中 的 信息 以 及 当前 要 进行 的 访问 操作 ,依次 对 相应 的 Cache 发 送 
控制 消息 ,并 完成 对 目录 项 信息 的 修改 。 此 外 ,还 要 向 请 求 处 理 器 发 送 响 应 信息 。 

为 了 提高 可 扩 放 性 ,可 以 把 存储 器 及 相应 的 目录 信息 分 布 到 各 节点 中 ,如 图 10. 8 所 示 。 
每 个 节点 的 目录 中 的 信息 是 对 应 于 该 节点 存储 器 中 的 数据 块 的 。 这 使 得 对 于 不 同 目录 项 的 
访问 可 以 在 不 同 的 节点 中 并 行进 行 。 当 处 理 器 进行 访 存 操作 时 ,如 果 该 地 址 落 在 本 地 存储 
器 的 地 址 范围 中 ,就 是 本 地 的 ,否则 就 是 远程 的 ,这 是 由 节点 内 的 控制 器 根据 访问 地 址 来 判 
定 的 。 


目录 中 目录 目录 上 目录 有 
互连网 络 
目录 目录 [ 目录 目录 


存储 器 | 二 | 7o | [存储 器 上 | vo ] [存储 器 | 十 | vo | [存储 器 上 | yo 


图 10.8 对 每 个 节点 增加 目录 后 的 分 布 式 存储 器 多 处 理 机 


对 于 目录 法 来 说 ,最 简单 的 实现 方案 是 对 于 存储 器 中 的 每 一 块 都 在 目录 中 设置 一 项 。 
在 这 种 情况 下 ,目录 中 的 信息 量 与 MX N 成 正比 。 其 中 M 表示 存储 器 中 存储 块 的 总 数量 ， 
NN 表示 处 理 器 的 个 数 。 由 于 M= 开 XN, K 是 每 个 处 理 机 中 存储 块 的 数量 ,所 以 如 果 天 保 
持 不 变 , 则 目录 中 的 信息 量 就 与 N? 成 正比 。 显 然 这 种 方法 的 可 扩 放 性 不 好 ,只 有 在 处 理 器 
个 数 比较 少 的 情况 下 才 是 可 行 的 。 

当 处 理 器 数量 较 多 时 ,需要 采用 扩 放 性 更 好 的 方法 ,例如 只 给 那些 已 经 进入 Cache 的 块 
(而 不 是 所 有 的 块 ) 设 置 目录 项 .或 者 让 每 个 目录 项 的 位 数 固定 。 后 面 将 进一步 介绍 这 些 方 法 。 

在 目录 协议 中 ,存储 块 的 状态 有 以 下 三 种 : 

(1) 未 缓冲 (UnCached) 一 一 该 块 尚未 被 调 入 Cache。 所 有 处 理 器 的 Cache 中 都 没有 这 
个 块 的 副本 。 

(2) 共享 (Shared) 一 一 该 块 在 一 个 或 多 个 处 理 机 上 有 这 个 块 的 副本 , 且 这 些 副本 与 存 
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储 器 中 的 该 块 相同 。 

(3) 独占 (Exclusive) 仅 有 一 个 处 理 机 有 这 个 块 的 副本 , 且 该 处 理 机 已 经 对 其 进行 
了 写 操作 ,所 以 其 内 容 是 最 新 的 ,而 存储 器 中 该 块 的 数据 已 过 时 。 这 个 处 理 机 称 为 该 块 的 拥 
有 者 (Owner) 。 

为 了 提高 实现 效率 ,在 每 个 Cache 中 还 跟踪 记录 每 个 Cache 块 的 状态 。 

在 目录 法 中 ,每 个 Cache 中 的 Cache 块 的 状态 及 其 转换 与 前 面 监听 法 的 情况 相同 。 只 
是 在 状态 转换 时 所 进行 的 操作 有 些 不 同 。 

图 10. 9 是 用 来 说 明 本 地 节点 、 宿 主 节点 以 及 远程 节点 的 概念 及 其 相互 关系 的 示意 图 。 
本 地 节点 (Local Node) 是 指 发 出 访问 请 求 的 节点 (图 中 的 A)。 该 节点 中 的 处 理 机 了 发 出 了 
一 个 地 址 为 K 的 访 存 请 求 。 宿 主 节点 (Home Node) 是 指 包 含 所 访问 的 存储 单元 及 其 目录 
项 的 节点 (图 中 的 B) , 它 包含 有 地 址 K 的 存储 单元 及 相应 的 目录 项 。 因 为 物理 地 址 空间 是 
静态 分 布 的 ,所 以 对 于 某 一 给 定 的 物理 地 址 ,包含 其 存储 单元 及 目录 项 的 节点 是 确定 且 唯 一 
的 。 该 地 址 的 高 位 指出 节点 号 ,而 低位 则 表示 在 相应 节点 的 存储 器 内 的 偏 移 量 。 图 中 的 C 
是 远程 节点 (Remode Node) , 它 拥 有 相应 存储 块 的 副本 。 

P 


1 
Cache | Cache 
| -~ 到 林 
1 1 
1 有 
本 地 节点 A | 1 远程 节点 C 
要 
.~ | ea- 
存储 器 目录 
宿主 节点 B 
(Home) 


图 10.9 宿主 节点 、 本 地 节点 和 远程 节点 


本 地 节点 和 宿主 节点 可 以 是 同一 个 节点 ,这 时 所 访问 的 单元 就 在 本 地 节点 的 存储 器 中 。 
远程 节点 可 以 和 宿主 节点 是 同一 个 节点 ,也 可 以 和 本 地 节点 是 同一 个 节点 。 在 这 些 情况 下 ， 
基本 协议 不 需要 变动 ,只 是 节点 之 间 的 消息 变 成 了 节点 内 的 消息 。 

为 了 实现 一 致 性 ,需要 在 节点 之 间 发 送 以 下 消息 。 

1. 本 地 节点 发 给 宿主 节点 (目录 ) 的 消息 

1) RdMiss(P,K) 

括号 中 的 内 容 表示 所 带 参 数 。 其 中 PP 为 发 出 请 求 的 处 理 机 .,K 为 所 要 访问 的 地 址 ， 
下 同 。 

功能 说 明 : 处 理 机 P 读 取 地 址 为 KK 的 数据 时 不 命中 ,请 求 宿主 节点 提供 数据 ( 块 ) ,并 
要 求 把 P 加 入 共享 集 。 

2) WtMiss(P,K) 

功能 说 明 : 处 理 机 了 对 地 址 K 进行 写 入 时 不 命中 ,请 求 宿主 节点 提供 数据 ,并 使 P 成 


多 处 理 栅 


为 所 访问 数据 块 的 独占 者 (共享 集合 中 只 有 P) 。 

3) Invalidate(K) 

功能 说 明 : 请 求 向 所 有 拥有 相应 数据 块 副本 (包含 地 址 KK) 的 远程 Cache 发 Invalidate 
消息 ,作废 这 些 副本 。 

2. 宿主 节点 (目录 ) 发 送 给 远程 节点 的 消息 

1) Invalidate(K) 

功能 说 明 : 作废 远程 Cache 中 包含 地 址 K 的 数据 块 。 

2) Fetch(K) 

功能 说 明 : 从 远程 Cache 中 取出 包含 地 址 K 的 数据 块 ,并 将 之 送 到 宿主 节点 。 把 远程 
Cache 中 那个 块 的 状态 改 为 “共享 ”。 

3) Fetch&InvCK) 

功能 说 明 : 从 远程 Cache 中 取出 包含 地 址 K 的 数据 块 ,并 将 之 送 到 宿主 节点 。 然 后 作 
废 远 程 Cache 中 的 那个 块 。 

3. 宿主 节点 发 送 给 本 地 节点 的 消息 : DReply(D) 

功能 说 明 : 这 里 的 DD 表示 数据 内 容 。 该 消息 的 功能 是 把 从 宿主 存储 器 获得 的 数据 返回 
给 本 地 Cache。 

4. 远程 节点 发 送 给 宿主 节点 的 消息 : WtBack(K.D) 

功能 说 明 : 把 远程 Cache 中 包含 地 址 K 的 数据 块 写 回 到 宿主 节点 中 。 

该 消息 是 远程 节点 对 宿主 节点 发 来 的 * 取 数据 "或 “ 取 / 作 废 ” 消 息 的 响应 。 

实际 上 ,只 要 数据 块 由 独占 状态 变 成 共享 状态 ,就 必须 进行 写 回 ,因为 所 有 的 独占 块 都 
是 被 修改 过 的 ,而 且 任 何 处 于 共享 状态 的 块 与 宿主 存储 器 中 相应 存储 块 的 内 容 必 定 是 相 
同 的 。 

5. 本 地 节点 发 送 给 被 替换 块 的 宿主 节点 的 消息 

1) MdSharer(P.K) 

功能 说 明 : 该 消息 用 于 当 本 地 Cache 中 需要 替换 一 个 包含 地 址 K 的 块 且 该 块 未 被 修 
改过 的 情况 。 这 个 消息 发 给 该 块 的 宿主 节点 ,请 求 它 将 P 从 共享 集中 删除 。 如 果 删 除 后 共 
享 集 变 为 空 集 , 则 宿主 节点 还 要 将 该 块 的 状态 改变 为 “未 缓存 ”(U)。 

2) WtBack2(P.,K .D) 

功能 说 明 : 该 消息 用 于 当 本 地 Cache 中 需要 替换 一 个 包含 地 址 K 的 块 且 该 块 已 被 修 
改过 的 情况 。 这 个 消息 发 给 该 块 的 宿主 节点 ,完成 两 步 操作 : 把 该 块 写 回 ; 四 进行 与 
MdSharer 相同 的 操作 。 

需要 说 明 的 是 ,这 里 所 说 的 宿主 节点 是 指 要 被 替换 的 块 的 宿主 节点 。 它 与 当前 本 地 节 
点 正在 访问 的 块 的 宿主 节点 是 不 同 的 。 

为 简单 起 见 , 本 节 中 我 们 假设 消息 被 接收 和 处 理 的 顺序 与 消息 发 送 的 顺序 相同 。 但 实 
际 情况 并 不 一 定 如 此 ,从 而 会 产生 更 多 的 复杂 性 。 


10.3.2 目录 协议 实例 


基于 目录 的 协议 中 ,Cache 的 基本 状态 与 监听 协议 中 的 相同 ,Cache 块 状态 转换 的 操作 
在 实质 上 也 与 监听 协议 相同 。 只 是 在 监听 协议 中 ,相关 的 消息 要 放 到 总 线 上 进行 广播 ,现在 
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则 由 点 到 点 的 通信 来 完成 。 本 地 节点 把 请 求 发 给 宿主 节点 中 的 目录 ,再 由 目录 控制 器 有 选 
择 地 向 远程 节点 发 出 相应 的 消息 ,使 远程 节点 进行 相应 的 操作 ,并 进行 目录 中 状态 信息 等 的 
更 新 。 与 监听 协议 相同 , 当 对 Cache 块 进 行 写 操作 时 ,该 Cache 块 必须 处 于 独占 状态 。 另 
外 ,对 于 任何 一 个 处 于 共享 状态 的 块 来 说 ,其 宿主 存储 器 中 的 内 容 都 是 最 新 的 。 

图 10. 10 是 在 基于 目录 协议 的 系统 中 ,响应 本 地 Cache CPU 请 求 时 Cache 块 的 状态 转 
换 图 。 跟 图 10. 6 一 样 , 用 斜 杠 来 分 隔 请 求 和 响应 操作 。 和 斜 杠 前 的 是 请 求 , 斜 杠 后 的 是 相应 
的 操作 。 在 这 些 操作 中 ,有 的 是 向 本 次 访问 的 宿主 节点 进一步 发 请 求 , 如 RdMiss, WtMiss， 
Invalidate。 有 的 则 是 向 被 替换 块 的 宿主 节点 发 请 求 ,如 MdSharer, WtBack2 ,其 含义 见 
0 名 二 术 荫 。 


CPU 读 命 CPU 读 不 命中 /发 WtBack2， 发 RdMiss 
CPU 写 命 


CPU 读 不 命中 / 
发 MdSharer， 
发 RdMiss 


CPU 写 不 命中 / 


发 WtBack2， 发 WtMiss CPU 写 不 命中 /发 MdSharer， 


发 WtMiss 


CPU 读 / 
发 RdMiss 


CPU 写 / 
发 WtMiss 


图 10.10 基于 目录 的 系统 中 Cache 块 的 状态 转换 图 工 : 响应 本 地 CPU 的 请 求 


图 10. 11 是 远程 节点 中 Cache 块 响应 来 自 宿主 节点 的 请 求 的 状态 转换 图 。 这 些 请 求 包 
括 Invalidate( 作 废 ) ,Fetch( 取 数据 块 ),Fetch&Inv( 取 数据 块 并 作废 ) ,其 含义 见 10. 3.1 
小 节 。 


Fetch/ 发 WtBack 


Fetch&Inv/ 


发 WtBack Invalidate 


图 10.11 基于 目录 的 系统 中 Cache 块 的 状态 转换 图 IT : 响应 宿主 目录 的 请 求 


如 果 把 上 述 Cache 块 的 状态 转换 及 操作 机 制 看 成 完成 了 目录 一 致 性 协议 的 一 半 , 则 目 
录 部 分 实现 了 该 协议 中 的 另 一 半 。 

如 前 所 述 , 目 录 中 存储 器 块 的 状态 有 : 未 缓存 .共享 和 独占 。 除 了 每 个 块 的 状态 外 , 目 
录 项 还 用 位 向 量 记录 拥有 其 副本 的 处 理 器 的 集合 。 这 个 集合 称 为 共享 集合 。 对 于 从 本 地 节 


点 发 来 的 请 求 , 目 录 所 进行 的 操作 包括 : 四 向 远程 节点 发 送 消息 以 完成 相应 的 操作 。 这 些 
远程 节点 由 共享 集合 指出 ; @ 修 改 目录 中 该 块 的 状态 ; @@ 更 新 共享 集合 。 

目录 可 能 接收 到 三 种 不 同 的 请 求 : 读 不 命中 、 写 不 命中 或 数据 写 回 。 假 设 这 些 操 作 是 
原子 的 。 

为 了 进一步 理解 目录 所 进行 的 操作 ,下 面 分 析 各 个 状态 下 所 接收 到 的 请 求 和 所 进行 的 
相应 操作 (参见 图 10. 12) 。 


RdMiss/ 发 Fetch，DReply， 把 P 加 入 共享 集 


WtMiss/ 发 Fetch&Inv， 
DReply， 共 享 集 = {P} 


WtMiss/ 发 Invalidate， 
DReply， 共 享 集 = {P} 


WtBack/ 共 享 集 ={} 


WtMiss/ 发 DReply， 


共享 集 = {P} RdMiss/ 


发 DReply， 共 享 集 = {P} 


U : 未 缓存 (Uncached) S : 共享 (Shared) : 只 读 
E: 独占 (Exclusive): 可 读 写 ”P: 本 地 处 理 器 


图 10.12 目录 的 状态 转换 及 相应 的 操作 


(1) 当 一 个 块 处 于 未 缓冲 状态 (U) 时 ,对 该 块 发 出 的 请 求 及 处 理 操作 为 : 
。 RdMiss( 读 不 命中 ) 一 一 将 所 要 访问 的 存储 器 数据 送 往 请 求 方 处 理 机 , 且 该 处 理 机 
成 为 该 块 的 唯一 共享 节点 ,本 块 的 状态 变 成 共享 。 
。 WtMiss( 写 不 命中 ) 一 一 将 所 要 访问 的 存储 器 数据 送 往 请 求 方 处 理 机 ,该 块 的 状态 
变 成 独占 ,表示 该 块 仅 存 在 唯一 的 副本 。 其 共享 集合 仅 包含 该 处 理 机 ,指出 该 处 理 
机 是 其 拥有 者 。 
(2) 当 一 个 块 处 于 共享 状态 (S) 时 ,其 在 存储 器 中 的 数据 是 当前 最 新 的 ,对 该 块 发 出 的 
请 求 及 处 理 操作 为 ， 
。 RdMiss 一 一 将 存储 器 数据 送 往 请 求 方 处 理 机 ,并 将 其 加 入 共享 集合 。 
。 WtMiss 将 数据 送 往 请 求 方 处 理 机 ,对 共享 集合 中 所 有 的 处 理 机 发 送 作 废 消息 ， 
且 将 共享 集合 改 为 仅 含 有 该 处 理 机 ,该 块 的 状态 变 为 独占 。 
(3) 当 某 块 处 于 独占 状态 CE) 时 ,该 块 的 最 新 值 保 存在 共享 集合 所 指出 的 唯一 处 理 机 
(拥有 者 ) 中 ,有 三 种 可 能 的 请 求 : 
。 RdMiss 将 * 取 数据 ?的 消息 发 往 拥有 者 处 理 机 ,将 它 返 回 给 宿主 节点 的 数据 写 
入 存储 器 ,进而 把 该 数据 送 回 请 求 方 处 理 机 ,将 请 求 方 处 理 机 加 入 共享 集合 。 此 时 
共享 集合 中 仍 保留 原 拥有 者 处 理 机 (因为 它 仍 有 一 个 可 读 的 副本 ) ,将 该 块 的 状态 变 
为 共享 。 
WtMiss 一 一 该 块 将 有 一 个 新 的 拥有 者 。 给 旧 的 拥有 者 处 理 机 发 送 消息 ,要 求 它 将 
数据 块 送 回 宿主 节点 并 写 和 存储 器 .然后 再 从 该 节点 送 给 请 求 方 处 理 机 。 同 时 还 要 
把 旧 拥 有 者 处 理 机 中 的 该 块 作废 。 把 请 求 处 理 机 加 入 共享 者 集合 ,使 之 成 为 新 的 拥 
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有 者 。 该 块 的 状态 仍旧 是 独占 。 
， WtBack( 写 回 ) 一 一 当 一 个 块 的 拥有 者 处 理 机 要 从 其 Cache 中 把 该 块 替 换 出 去 时 ， 
必须 将 该 块 写 回 其 宿主 节点 的 存储 器 中 ,从 而 使 存储 器 相应 的 块 中 存放 的 数据 是 最 
新 的 (宿主 节点 实际 上 成 为 拥有 者 ) ,该 块 的 状态 变 成 未 缓冲 ,其 共享 集合 为 空 。 
实际 计算 机 中 采用 的 目录 协议 要 做 一 些 优 化 。 例 如 对 某 个 独占 块 发 出 读 或 写 不 命中 
时 ,该 块 将 先 被 送 往 宿 主 节 点 并 存 人 存储 器 ,然后 再 被 送 往 请 求 节 点 ,而 实际 中 的 计算 机 很 
多 都 是 将 数据 从 拥有 者 节点 直接 送 该 请 求 节 点 ,同时 写 回 宿 主 节点 中 的 存储 器 。 
基于 目录 的 Cache 一 致 性 协议 是 完全 由 硬件 实现 的 。 当 然 , 也 可 以 用 软 硬 结合 的 办 法 
实现 ,即将 一 个 可 编程 协议 处 理 机 嵌入 一 致 性 控制 器 中 ,这 样 既 减少 了 成 本 ,又 缩短 了 开发 
周期 。 这 是 因为 可 编程 协议 处 理 机 可 以 根据 实际 应 用 需要 很 快 开发 出 来 ,而 一 致 性 协议 处 
理 中 的 异常 情况 可 完全 交 给 软件 执行 。 这 种 软 硬 结合 实现 Cache 一 致 性 的 代价 是 损失 了 一 
部 分 效率 。 
到 目前 为 止 我 们 讨论 的 一 致 性 协议 都 作 了 一 些 简化 的 假设 ,实际 中 的 协议 必须 处 理 以 
下 两 个 实际 问题 : 操作 的 非 原子 性 和 有 限 的 缓存 。 操 作 的 非 原子 性 产生 实现 的 复杂 性 ,有 
限 的 缓存 可 能 导致 死 锁 问题 。 


10.3.3 目录 的 三 种 结构 


不 同 目录 协议 的 主要 区 别 主 要 有 两 个 ,一 个 是 所 设置 的 存储 器 块 的 状态 及 其 个 数 不 同 ， 

一 个 则 是 目录 的 结构 。 根 据 目 录 的 结构 ,可 以 把 目录 协议 分 成 三 类 : 全 映像 (full- 
i 目录 、 有 限 映 像 (limited-mapped) 目 录 和 链 式 (chained) 目 录 。 

1. 全 映像 目录 

前 面 10. 3. 1 节 和 10. 3. 2 节 中 介绍 的 协议 都 是 基于 全 映像 目录 的 。 在 这 种 结构 中 ,每 
一 个 目录 项 都 包含 一 个 N 位 CN 为 处 理 机 的 个 数 ) 的 位 向 量 ,其 每 一 位 对 应 于 一 个 处 理 机 。 
例如 ,在 如 图 10. 13 所 示 的 例子 中 , 按 从 左 到 右 的 次 序 给 位 向 量 中 的 位 进行 编号 后 ,第 i 位 
就 对 应 于 第 i 个 处 理 机 ,图 中 用 虚线 来 表示 这 种 关系 。 当 位 向 量 中 的 值 为 *1* 时 ,就 表示 它 
所 对 应 的 处 理 机 有 该 数据 块 的 副本 ;否则 就 表示 没有 。 在 这 种 情况 下 .共享 集合 由 位 向 量 中 
值 为 *1” 的 位 所 对 应 的 处 理 机 构成 。 
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图 10.13 全 映像 目录 


多 处 理 机 


全 映像 目录 的 处 理 比较 简单 .速度 也 比较 快 。 但 它 的 存储 空间 的 开销 很 大 。 目 录 项 的 
数目 与 处 理 机 的 个 数 N 成 正比 ,而 目录 项 的 大 小 (位 数 ) 也 与 N 成 正比 ,因此 目录 所 占用 的 
空间 与 N* 成 正比 。 这 种 目录 结构 的 可 扩 放 性 很 差 。 

2. 有 限 映 像 目录 

有 限 映 像 目录 是 对 全 映像 目录 的 改进 ,为 的 是 提高 其 可 扩 放 性 和 减少 目录 所 占用 的 空 
间 。 其 核心 思想 是 采用 位 数 固定 的 目录 项 目 ,这 是 通过 对 同一 数据 块 在 所 有 Cache 中 的 副 
本 总 数 进行 限制 来 实现 的 。 例 如 ,限定 为 常数 m, 则 目录 项 中 用 于 表示 共享 集合 所 需 的 二 进 
制 位 数 为 mXhlogsN 1。 人 们 发 现 , 根 据 局 部 性 原理 ,一 般 来 说 m<N, 这 样 就 能 大 大 地 减 小 
目录 存储 器 的 规模 。 这 种 目录 所 占用 的 空间 与 NX[logsN 城 正 比 。 图 10. 14 是 采用 有 限 
映像 目录 的 一 个 例子 。 


0001 | 0011 | 0101 | 0111 | 每 一 项 的 位 数 = [log: N1 


mm 项 
共享 集 ={P,，P3;，P4，P7 } 


图 10.14 有 限 映像 目录 (mm 一 4,N 三 8 的 情况 ) 


有 限 映像 目录 的 缺点 是 : 当 同 一 数据 的 副本 个 数 大 于 m 时 ,必须 做 特殊 处 理 。 当 目录 
项 中 的 m 个 指针 已 经 全 被 占 满 ,而 某 处 理 机 又 需要 新 调 入 该 块 时 ,就 需要 在 其 mn 个 指针 中 
选择 一 个 ,将 之 驱逐 ,以 便 腾 出 位 置 , 存 放 指 向 新 调 入 块 的 处 理 机 的 指针 。 

有 限 目 录 的 驱逐 需要 根据 某 一 种 策略 来 从 m 个 指针 选 出 要 驱逐 的 项 ,这 个 策略 的 好 坏 
对 系统 的 性 能 有 很 大 的 影响 。 了 驱逐 策 略 与 Cache 的 替换 策略 在 很 多 方面 是 相同 的 ,所 以 许 
多 在 Cache 替换 策略 方面 的 研究 成 果 可 以 被 直接 用 在 驱逐 策略 的 设计 中 。 

3. 链 式 目 录 

链 式 目 录 是 用 一 个 目录 指针 链表 来 表示 共享 集合 。 当 一 个 数据 块 的 副本 数 增 加 (或 减 
少 ) 时 ,其 指针 链表 就 跟着 变 长 (或 变 短 )。 由 于 链表 的 长 度 不 受 限制 ,因而 带 来 了 以 下 优点 : 
既 不 限制 副本 的 个 数 , 又 保持 了 可 扩展 性 。 

链 式 目录 有 两 种 实现 方法 : 单 链 法 和 双 链 法 。 图 10. 15 是 采用 单 向 链 法 的 示意 图 。 在 
图 10. 15(a) 中 ,这 个 链表 只 有 一 个 元 素 , 该 元 素 的 下 一 元 素 指针 中 存放 的 是 链表 结束 标记 
“人”。 表 头 指 针 存放 在 存储 器 中 ,而 链表 的 各 元 素 则 放 在 Cache 中 。 图 10. 15(b) 是 在 
图 10. 15(a) 的 基础 上 把 共享 数据 块 依次 调和 人 P, 和 P; 后 的 链表 的 变化 情况 。 对 该 链表 的 
操作 是 依次 插入 两 个 新 元 素 。 

当 Cache 中 的 块 被 替换 出 去 时 ,需要 对 相应 的 链表 进行 操作 一 一 把 相应 的 链表 元 素 ( 假 
设 是 链表 中 的 第 i 个) 删除 ,实现 方法 有 以 下 两 种 : 

(1) 沿 着 链表 往 下 寻找 第 i 个 元 素 , 找 到 后 .修改 其 前 后 的 链接 指针 , 跳 过 该 元 素 。 

(2) 找到 第 i 个 元 素 后 ,作废 它 及 其 后 的 所 有 元 素 所 对 应 的 Cache 副本 。 
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如 果 采 用 双向 链表 ,在 替换 时 就 不 再 需要 遍历 整个 链表 。 虽 然 节省 了 处 理 时 间 , 但 其 指 
针 增 加 了 一 倍 , 而 且 一 致 性 协议 也 更 复杂 了 。 

链 式 目 录 比 前 两 种 结构 都 复杂 不 少 ,但 它 带 来 了 可 扩展 性 ,这 是 前 两 种 方法 所 无 法 实现 
的 。 链 式 目录 的 指针 的 位 数 与 log: N 成 正比 ,但 每 个 数据 块 的 链表 中 的 指针 数目 与 处 理 机 的 个 
数 无 关 。 在 目录 所 占用 的 空间 方面 , 链 式 目录 与 有 限 映 像 目 录 类 似 ,也 是 与 NXlogs N 成 正比 的 。 


Cache 


表 头 指针 | ， 


共享 集 ={P2 } 
(a) 


处 理 器 


表 头 指针 ! 
(TlogsN | 位 ) 


共享 集 ={ P| ，P4 ，P2 } 
(b) 


图 10.15 链 式 目录 


10.4 同 步 


同步 机 制 是 多 处 理 机 系统 中 的 一 个 重要 组 成 部 分 ,其 实现 方法 除 关系 到 系统 的 正确 性 
之 外 ,还 关系 系统 的 效率 。 在 大 规模 计算 机 或 进程 竞争 激烈 的 情况 下 ,同步 可 能 会 成 为 性 能 
的 瓶颈 ,导致 较 大 的 延迟 开销 。 同 步 机 制 通常 是 在 硬件 提供 的 同步 指令 的 基础 上 ,通过 用 户 
级 软件 例 程 来 建立 的 。 


10.4.1 基本 硬件 原 语 
在 多 处 理 机 中 实现 同步 ,所 需 的 主要 功能 是 一 组 能 以 原子 操作 的 方式 读 出 并 修改 存储 
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单元 的 硬件 原 语 。 如 果 没 有 这 种 功能 ,建立 基本 的 同步 原 语 的 代价 将 会 非常 大 ,并 且 这 种 代 
价 随处 理 器 个 数 的 增加 而 增加 。 基 本 硬件 原 语 有 几 种 形式 可 供 选 择 , 它 们 都 能 以 原子 操作 
的 方式 读 /修改 存储 单元 ,并 指出 所 进行 的 操作 是 否 以 原子 的 方式 进行 。 这 些 原 语 作 为 基本 
构件 ,被 用 来 构造 各 种 各 样 的 用 户 级 同步 操作 。 通 常情 况 下 ,系统 结构 设计 者 不 希望 用 户 直 
接 使 用 硬件 原 语 ,这 些 原 语 主要 供 系统 程序 员 编 制 同步 库 函 数 。 

用 于 构造 同步 操作 的 一 个 典型 操作 是 原子 交换 (Atomic Exchange), 它 的 功能 是 将 一 
个 存储 单元 的 值 和 一 个 寄存 器 的 值 进 行 交 换 。 我 们 来 看 看 如 何 用 它 来 构造 一 个 基本 的 同步 
操作 。 假 设 我 们 要 构造 这 样 一 个 简单 的 锁 ; 其 值 为 0 表示 锁 是 开 的 (可 用 ) ,为 1 表示 已 上 
锁 ( 不 可 用 )。 当 处 理 器 要 给 该 锁 上 锁 时 ,将 对 应 于 该 锁 的 存储 单元 的 值 与 存放 在 某 个 寄存 
器 中 的 1 进行 交换 。 如 果 别 的 处 理 器 早已 上 了 锁 , 则 交换 指令 返回 的 值 为 1, 否则 为 0。 在 
后 一 种 情况 下 ,该 锁 的 值 会 从 0 变 成 1, 即 上 了 锁 。 这 样 ,其 他 竞争 的 交换 指令 的 返回 值 就 
不 会 是 0。 

若 两 个 处 理 器 同时 进行 交换 操作 ,竞争 的 结果 是 ,只 有 一 个 处 理 器 会 先 执 行 成 功 而 得 到 
返回 值 0, 而 第 二 个 处 理 器 则 得 到 返回 值 1。 采 用 原子 交换 原 语 实现 同步 的 关键 是 操作 的 原 
子 性 : 交换 操作 是 不 可 再 细 分 的 ,两 个 同时 进行 的 交换 操作 将 由 写 顺 序 机 制 确定 先后 顺序 。 
这 保证 了 两 个 处 理 器 不 可 能 同时 获得 同步 变量 锁 。 

还 有 一 些 别 的 原 语 可 用 来 实现 同步 ,它们 均 具 有 这 样 的 关键 属性 : 能 指出 是 否 以 原子 
的 方式 读 出 并 更 新 存储 单元 值 。 测 试 并 置 定 (test_and_set) 是 其 中 之 一 ,在 许多 以 往 的 多 处 
理 机 中 都 有 这 样 一 个 操作 。 其 功能 是 先 测试 一 个 存储 单元 的 值 , 如 果 符 合 条 件 则 修改 其 值 。 
例如 可 以 定义 一 个 操作 来 检测 某 个 存储 单元 的 值 是 否 为 0, 是 则 置 1。 其 使 用 方法 跟前 面 介 
绍 的 原子 交换 类 似 。 另 一 个 同步 原 语 是 读 取 并 加 1(fetch_and_increment) , 它 返回 存储 单 
元 的 值 并 自动 增加 该 值 。 

然而 ,要 在 一 条 指令 中 完成 上 述 全 部 操作 会 有 一 些 困难 ,因为 它 要 在 一 条 不 可 中 断 的 指 
令 中 完成 一 次 存储 器 读 和 一 次 存储 器 写 ,而 且 在 这 一 过 程 中 不 允许 进行 其 他 的 访 存 操作 ,而 
且 还 要 避免 死 锁 。 

现在 一 些 计算 机 上 用 到 的 原子 方式 的 读 /修改 方法 略 有 不 同 , 它 们 采用 一 对 指令 而 不 是 
一 条 指令 来 实现 上 述 同步 原 语 。 这 种 方法 是 在 第 二 条 指令 返回 一 个 值 , 通 过 该 值 可 以 判断 
该 指令 对 的 执行 结果 是 否 相当 于 一 个 原子 操作 。 所 谓 相 当 于 原子 操作 是 指 所 有 其 他 处 理 器 
进行 的 操作 或 者 在 该 指令 对 之 前 .或 者 在 该 指令 对 之 后 进行 ,不 存在 在 这 两 条 指令 之 间 进 行 
的 操作 。 所 以 在 这 一 对 指令 之 间 , 任 何其 他 的 处 理 器 都 不 会 改变 相应 存储 单元 的 值 。 

该 指令 对 由 两 条 特殊 的 指令 构成 .一 条 是 特殊 的 load 指令 , 称 为 LL(Load Linked 或 
Load Locked) , 另 一 条 是 特殊 的 store 指令 . 称 为 SC(Store Conditional) 。 指 令 顺 序 执行 是 ， 
如 果 由 LL 指明 的 存储 单元 的 内 容 在 SC 对 其 进行 写 之 前 已 被 其 他 指令 改写 过 , 则 第 二 条 指 
令 SC 执行 失败 ;如 果 在 两 条 指令 间 进 行 切换 也 会 导致 SC 执行 失败 。SC 将 返回 一 个 值 来 
指出 该 指令 操作 是 否 成 功 ,如 果 执 行 成 功 就 返回 1; 否则 返回 0。LL 则 返回 该 存储 单元 的 初 
始 值 。 下 面 这 一 段 程序 实现 对 由 R1 指出 的 存储 单元 进行 原子 交换 操作 。 

try: OR  F3,R4,RO //R4 中 为 交换 值 ,把 该 值 送 入 3 


于 FR2,0®RL) // 把 单元 0BH 中 的 值 取 到 了 
SC Fa,0GED) // 著 0BD 中 的 值 与 取 中 的 值 相 同 , 则 置 BB 的 值 
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// 为 1 否则 置 为 0 
BEQZ BR3,try // 存 失败 B3 的 值 为 0) 则 转移 
MV Rd,R2 // 将 取 的 值 送 往 R4 
最 终 R4 和 由 R1 指向 的 单元 值 进行 原子 交换 ,在 LL 和 SC 之 间 如 有 别 的 处 理 器 搬入 
并 且 修 改 了 存储 单元 的 值 , 则 SC 将 返回 0 并存 人 R3 中 ,从 而 使 这 段 程序 再 次 执行 。 
LL/SC 机 制 的 一 个 优点 是 可 用 来 构造 别 的 同步 原 语 。 例 如 ,构造 原子 操作 fetch_and_ 


increment。 


try: 巧 F2,0GBI) // 把 单元 0 ED) 中 的 值 送 入 FR2 
DRDDIU RF2,R2,#1 // 加 工 
SC F2,0GD) //[ 若 0GH) 中 的 值 与 权 中 的 值 相同 , 则 置 取 的 值 
// 为 1 否则 置 为 0 
BERZ Rtry // 存 失败 B2 的 值 为 0) 则 转移 


这 些 指 令 的 实现 必须 跟踪 地 址 。 通 常 由 LL 指令 指定 一 个 寄存 器 ,该 寄存 器 存放 着 一 
个 存储 器 单元 的 地 址 ,这 个 寄存 器 常 称 为 连接 寄存 器 (Link Register) ,如 果 发 生 中 断 切换 或 
与 连接 寄存 器 中 的 地 址 匹配 的 Cache 块 被 作废 (比如 被 别 的 SC 指令 访问 ), 则 将 连接 寄存 
器 清 零 ,SC 指令 检查 它 的 存储 地 址 与 连接 寄存 器 内 容 是 否 匹 配 , 如 匹配 则 SC 继续 执行 , 否 
则 执行 失败 。 既 然 别 的 处 理 器 对 连接 寄存 器 所 指 单元 的 写 或 任何 异常 指令 都 会 导致 SC 失 
败 , 就 应 该 特别 注意 在 两 条 指令 间 搬 人 其 他 指令 的 选择 。 一 般 情 况 下 ,只 有 寄存 器 -寄存 器 
指令 才能 安全 地 通过 ,和 否则 极 有 可 能 产生 死 锁 并 使 处 理 器 永远 不 能 完成 SC。 此 外 ,LL 和 
SC 之 间 的 指令 数 应 尽量 少 ,从 而 减少 由 无 关 事件 或 竞争 的 处 理 所 导 致 的 SC 执行 失败 。 


10.4.2 用 一 致 性 实现 锁 


有 了 原子 操作 ,就 可 以 采用 多 处 理 机 的 一 致 性 机 制 来 实现 旋转 锁 (Spin Locks)。 旋 转 
锁 是 指 处 理 器 不 停 地 请 求 获得 使 用 权 的 锁 。 处 理 器 围绕 该 锁 反 复 执行 循环 程序 ,直到 获得 
该 锁 。 旋 转 锁 适 合 于 这 样 的 场合 : 锁 被 占用 的 时 间 很 少 , 在 获得 锁 后 加 锁 过 程 延 迟 很 小 。 
因为 旋转 锁 会 把 处 理 器 绑 定 在 循环 等 待 获 得 锁 的 使 用 权 中 ,所 以 在 有 些 情况 下 不 适合 使 用 。 

在 无 Cache 一 致 性 机 制 的 条 件 下 ,最 简单 的 实现 方法 是 把 锁 变量 保存 在 存储 器 中 ,处 理 
器 可 以 不 断 地 通过 一 个 原子 操作 来 请 求 其 使 用 权 , 如 利用 原子 交换 操作 ,并 测试 返回 值 从 而 
知道 锁 的 使 用 情况 。 释 放 锁 时 ,处理 器 只 需 简 单 地 将 锁 置 为 0。 下 面 这 段 程序 用 原子 交换 
操作 对 旋转 锁 进行 加 锁 ,R1l 中 存放 的 是 该 旋转 锁 的 地 址 。 


DADDIU R2,RO,#1 


lockit: ExCH R2,0(Rl) // 原 子 交 换 
BNEZ R2,lockit // 著 取 的 内 容 不 为 0, 则 表示 已 经 被 其 他 程序 上 锁 
// 继 续 旋 转 等 待 


如 果 计 算 机 支持 Cache 一 致 性 ,就 可 以 将 锁 调 入 Cache, 并 通过 一 致 性 机 制 使 锁 值 保 持 一 
致 。 这 样 做 有 两 个 好 处 : 第 一 ,可 使 “环绕 "的 进程 (对 锁 不 停 地 进行 测试 和 请 求 占 用 的 小 循 
环 ) 只 对 本 地 Cache 中 的 锁 (副本 ) 进 行 操作 ,而 不 用 在 每 次 请 求 占 用 锁 时 都 进行 一 次 全 局 的 存 
储 器 访问 ;第 二 个 好 处 是 可 利用 访问 锁 时 所 具有 的 局 部 性 , 即 处 理 器 最 近 使 用 过 的 锁 不 久 又 会 
使 用 ,这 种 状况 下 锁 可 驻 留 在 那个 处 理 器 的 Cache 中 ,大 大 减少 了 获得 锁 所 需要 的 时 间 。 
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要 获得 第 一 条 好 处 , 需 对 上 面 简单 的 旋转 锁 程序 进行 一 些 改动 ,上 面 循 环 中 每 次 交换 均 
需 一 次 写 操作 ,如果 有 多 个 处 理 器 都 同时 请 求 加 锁 , 则 大 多 数 写 都 会 导致 写 不 命中 ,因为 每 
个 处 理 器 都 想 以 独占 的 方式 获得 锁 变 量 。 因 此 应 该 对 旋转 锁 程序 进行 改进 ,使 得 它 只 对 本 
地 Cache 中 锁 的 副本 进行 读 取 和 检测 ,直到 发 现 该 锁 已 经 被 释放 。 然 后 ,该 程序 立即 进行 交 
换 操作 ,去 跟 其 他 处 理 器 上 的 进程 争 用 该 锁 变 量 。 这 些 进程 也 在 以 同样 的 方式 “旋转 等 待 ” 
该 锁 。 所 有 这 些 进程 都 采用 交换 指令 来 从 锁 变 量 读 出 原来 的 值 ,并 把 1 写 入 锁 变 量 。 只 有 
一 个 进程 获胜 一 一 获得 锁 的 占有 权时 ,该 进程 才能 看 到 锁 变 量 原来 的 值 是 0。 其余 的 进程 
都 是 失败 者 ,虽然 它们 也 将 锁 变量 置 1, 但 因 它们 所 看 到 的 锁 变 量 本 来 就 是 1, 所 以 等 于 没 做 
什么 。 它 们 还 要 继续 “旋转 等 待 ”。 获 得 占有 权 的 处 理 器 在 执行 完 其 代码 后 ,将 锁 变 量 置 零 
以 释放 它 , 其 他 “旋转 等 待 ”该 锁 的 进程 又 开始 争 用 。 下 面 是 修改 后 的 旋转 锁 程序 。 


lockit: ID FR2,0R1) // 取 锁 值 
ENEZ R2,lockit // 如 果 锁 没有 被 释放 , 则 继续 “旋转 等 待 ” 
DRDDIU R2,R0,#1 // 置 R2 为 1 
EXH  R2,0Rl) // 交 换 
ENEZ R2,lockit // 如 果 锁 没有 被 释放 , 则 继续 “旋转 等 待 ” 


下 面 分 析 这 种 旋转 锁 是 怎样 使 用 Cache 一 致 性 机 制 的 。 表 10. 2 给 出 了 三 个 处 理 器 利 

用 原子 交换 争 用 旋转 锁 所 进行 的 操作 。 一 旦 一 个 拥有 旋转 锁 的 处 理 器 使 用 完毕 ,并 写 入 0 

来 释放 该 锁 , 所 有 其 他 Cache 中 的 对 应 块 就 均 被 作废 ,必须 取 新 的 值 来 更 新 它们 所 拥有 的 锁 

的 副本 。 其 中 一 个 处 理 器 的 Cache 会 先 获得 被 释放 了 的 锁 的 值 (0) ,并 进行 交换 操作 。 当 别 

的 Cache 不 命中 处 理 完 后 ,它们 就 会 发 现 该 锁 已 经 被 加 了 锁 , 所 以 又 必须 不 停 地 环绕 测试 。 
表 10.2 三 个 处 理 器 争 用 旋转 锁 的 操作 


步骤 | 处 理 器 Ps 处 理 器 P1 处 理 器 P。 锁 的 状态 总 线 / 目 录 操 作 


环绕 测试 是 否 
lock=0 


2 | 将 锁 置 为 0 | ( 收 到 作废 命令 ) | ( 收 到 作废 命令 ) 专 有 (Po) | P 发 出 对 锁 变量 的 作废 消息 
总 线 / 目 录 收 到 P。Cache 


1 | 占有 锁 环绕 测试 是 否 lock 一 0 | 共享 无 


3 Cache 不 命中 | Cache 不 命中 共享 不 命中 ; 锁 从 Ps 写 回 
( 因 总 2 可 ; 
eh lock—0 共享 | P Cache 不 命中 被 处 理 


执行 交换 ,导致 Cache 
不 命中 
执行 交换 ,导致 | 交换 完毕 : 返回 0 并 置 


有 (了 P， 
Cache 不 命中 lock=1 专 有 (Ps) 


lock=0 上 享 PCache 不 命中 被 处 理 


y 


总 线 /目录 收 到 P。 Cache 

不 命中 ;发 作废 消息 

总 线 / 目 录 处 理 P! Cache 
不 命中 ; 写 回 

环绕 测试 是 否 


a: lock=0 


7 交换 完毕 : 返回 1 | 进入 关键 程序 段 专 有 (Pi,) 


这 里 假设 采用 写作 废 的 一 致 性 机 制 , 开 始 时 P。 占有 锁 ( 第 1 步 ) ,然后 Po 将 锁 释 放 ( 第 
2 步 ),P; 和 P。 争 用 锁 ( 第 3 一 5 步 );P。 胜出 ,进入 关键 处 理 段 (第 6. 第 7 步 );P; 失败 后 继 
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续 环 绕 等 待 (第 7、 第 8 步 )。 在 实际 系统 中 ,这 些 事件 耗费 的 时 间 远 大 于 8 个 时 钟 周 期 , 因 
为 获得 总 线 使 用 权 及 不 命中 处 理 的 时 间 会 长 得 多 。 

这 个 例子 也 说 明了 LL/SC 原 语 的 另 一 个 优点 : 读 写 操作 显 式 地 分 开 。LL 不 产生 总 线 
数据 传送 ,这 使 得 下 面 这 段 程序 与 前 面 采 用 交换 操作 、 经 过 优化 了 的 代码 具有 相同 的 特点 
(CR1 中 保存 锁 的 地 址 ) 。 


lockit: IL F2,0GD) //load- linked 
BEZz RF2,lockit // 若 锁 未 被 释放 , 则 旋转 
DRDDIU RF2,R0,#1 // 置 锁 值 为 1 
SC FE2,0GD) // 写 人 存储 器 
Biz  R2,lockit // 如 果 存 失败 则 转移 


第 一 个 分 支 形 成 环绕 的 循环 体 ,第 二 个 分 支 解 决 了 两 个 处 理 器 同时 看 到 锁 可 用 的 情况 
下 的 争 用 问题 。 尽 管 旋 转 锁 机 制 简单 并 且 具 有 吸引 力 ,但 难以 将 它 应 用 于 处 理 器 数量 很 多 
的 情况 ,因为 锁 被 释放 时 ,处 理 器 之 间 争 用 锁 会 产生 大 量 的 通信 开销 。 


10.4.3 同步 性 能 问题 


10. 4.2 节 介 绍 的 简单 旋转 锁 不 能 很 好 地 适应 可 扩 放 性 。 设 想 一 下 ,如 果 大 规模 多 处 理 
机 中 所 有 的 处 理 器 都 同时 争 用 同一 个 锁 , 那 么 目录 或 总 线 作 为 所 有 处 理 器 实现 串 行 化 的 中 
心 点 ,肯定 是 个 瓶颈 ,会 导致 大 量 的 争 用 和 通信 开销 。 从 下 面 的 例子 就 可 以 更 加 清楚 地 看 到 
这 一 点 。 

例 10.3 假设 某 条 总 线 上 有 10 个 处 理 器 同时 准备 对 同一 变量 加 锁 。 如 果 每 个 总 线 事 
务 处 理 ( 读 不 命中 或 写 不 命中 ) 的 时 间 是 100 个 时 钟 周期 ,而 且 忽略 对 已 调和 Cache 中 的 锁 
进行 读 写 的 时 间 以 及 占用 该 锁 的 时 间 。 

(1) 假设 该 锁 在 时 间 为 0 时 被 释放 ,并 且 所 有 处 理 器 都 在 旋转 等 待 该 锁 。 问 : 所 有 10 
个 处 理 器 都 获得 该 锁 所 需 的 总 线 事 务 数目 是 多 少 ? 

(2) 假设 总 线 是 非常 公平 的 ,在 处 理 新 请 求 之 前 ,要 先 全 部 处 理 好 已 有 的 请 求 。 并 且 各 
处 理 器 的 速度 相同 。 问 : 处 理 10 个 请 求 大 概 需要 多 少时 间 ? 

解 ” 当 i 个 处 理 器 争 用 锁 的 时 候 ,它们 都 各 自 完成 以 下 操作 序列 ,每 一 个 操作 产生 一 个 
总 线 事 务 : 

。 访 问 该 锁 的 i 个 LL 指令 操作 ; 

。 试 图 占用 该 锁 ( 并 上 锁 ) 的 i 个 SC 指令 操作 ; 

。 一 个 释放 锁 的 存 操作 指令 。 

因此 对 于 ;个 处 理 器 来 说 ,一 个 处 理 器 获得 该 锁 所 要 进行 的 总 线 事务 的 个 数 为 2i 十 1。 
这 里 假设 关键 代码 段 的 执行 时 间 可 以 忽略 不 计 。 

假设 一 共有 个 处 理 器 。 在 最 开始 时 ,共有 nn 个 处 理 器 在 争 用 该 锁 , 一 个 处 理 器 胜出 ， 
完成 执行 后 释放 该 锁 , 其 总 线 事务 的 个 数 为 2n 十 1; 接 下 来 , 剩 下 的 ”一 1 个 处 理 器 继续 争 用 
该 锁 , 其 总 线 事务 的 个 数 为 2(n 一 1) 十 1; 其 余 以 此 类 推 。 由 此 可 知 , 总 的 总 线 事务 个 数 为 


(2 二 1 一 ?2 十 1) 十 寻 一 ?2 十 27 
对 于 10 个 处 理 器 来 说 ,其 总 线 事务 数 为 120 个 ,需要 12 000 个 时 钟 周期 。 
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本 例 中 间 题 的 根源 是 锁 的 争 用 、 对 锁 进 行 访问 的 串 行 性 以 及 总 线 访问 的 延迟 。 旋 转 锁 
的 主要 优点 是 : 总 线 开销 或 网 络 开销 比较 低 , 而 且 当 一 个 锁 被 同一 个 处 理 器 重用 时 具有 很 
好 的 性 能 。 但 这 两 点 在 上 述 例 子 中 均 没 有 得 到 体现 。 

下 面 讨 论 如 何 用 旋转 锁 来 实现 一 个 常用 的 高 级 同步 原 语 一 一 栅栏 同步 (barrier) 。 栅 栏 
强制 所 有 到 达 该 栅栏 的 进程 进行 等 待 ,直到 全 部 的 进程 到 达 栅 栏 , 然 后 释放 全 部 的 进程 ,从 
而 形成 同步 。 栅 栏 的 典型 实现 是 用 两 个 旋转 锁 : 一 个 用 来 保护 一 个 计数 器 , 它 记 录 已 到 达 
该 栅栏 的 进程 数 ; 另 一 个 用 来 封锁 进程 直至 最 后 一 个 进程 到 达 该 栅栏 。 为 了 实现 栅栏 ,一般 
要 利用 这 样 的 功能 : 在 一 个 变量 上 旋转 等 待 直到 它 满足 规定 的 条 件 。 我 们 用 spin 
(condition) 来 表示 这 种 情况 。 下 面 的 程序 是 一 种 典型 的 实现 ,其 中 lock 和 unlock 提供 基本 
的 旋转 锁 ,变量 count 记录 已 到 达 栅 栏 的 进程 数 ,total 规定 了 要 到 达 栅 栏 的 进程 总 数 ,对 
counterlock 加 锁 保 证 增 量 操作 的 原子 性 。release 用 来 封锁 进程 直到 最 后 一 个 进程 到 达 栅 
栏 。spin(release 王 1) 使 进程 等 待 直到 全 部 的 进程 到 达 栅 栏 。 


lock (counterlock); // 确 保 更 新 的 原子 性 
if (count== 0)release= 0; // 第 一 个 进程 则 重 置 release 
count= count+ 1; // 到 达 进 程 数 加 1 
unlock (counterlock); // 释 放 锁 
ifE(count==total){ // 进 程 全 部 到 达 
count= 0; // 重 置 计数 器 
release= 1; // 释 放 进程 
} 
else{ // 还 有 进程 未 到 达 
spin(release= 1); // 等 待 别 的 进程 到 达 


栅栏 通常 是 在 循环 中 使 用 的 ,因此 从 栅栏 释放 出 的 进程 在 运行 一 段 后 又 会 再 次 到 达 该 
栅栏 。 假 设 其 中 有 一 个 进程 还 没有 离开 栅栏 , 即 停留 在 旋转 等 待 操作 上 (例如 操作 系统 重新 
调度 进程 后 就 可 能 发 生 这 样 的 情况 )。 这 时 如 果 有 个 进程 的 执行 比较 快 ,又 到 达 了 栅栏 ,而 
上 一 次 循环 的 进程 中 最 后 那个 还 没 来 得 及 离开 该 栅栏 。 那 么 这 个 “ 快 ” 进 程 就 会 把 release 
重新 置 为 0, 从 而 把 上 次 循环 的 “ 慢 ? 进 程 “ 捆 ?在 这 个 栅栏 上 。 这 样 所 有 的 进程 在 这 个 栅栏 
的 又 一 次 使 用 中 都 会 处 于 无 限 等 待 状态 ,因为 已 经 到 达 该 栅栏 的 进程 数目 总 是 达 不 到 total 
(上 一 次 循环 欠 了 一 个 )。 

解决 这 个 问题 的 一 种 方法 是 当 进 程 离开 栅栏 时 进行 计数 (和 到 达 时 一 样 ), 在 上 次 栅栏 
使 用 中 的 所 有 进程 离开 之 前 ,不 允许 任何 进程 重用 并 初始 化 本 栅栏 。 但 这 会 明显 增加 栅栏 
的 延迟 和 竞争 。 另 一 种 解决 办 法 是 采用 sense_reversing 栅栏 ,每 个 进程 均 使 用 一 个 私有 变 
量 local_sense, 该 变量 初始 化 为 1。 下 面 的 程序 给 出 了 sense_reversing 栅栏 的 代码 ,这 种 方 
法 使 用 安全 。 但 其 性 能 仍旧 比较 差 。 对 于 10 个 处 理 器 来 说 , 当 同 时 进行 栅栏 操作 时 ,如 果 
忽略 对 Cache 的 访问 时 间 以 及 其 他 非 同 步 操作 所 需 的 时 间 , 则 其 总 线 事务 数 为 204 个 ,如 果 
每 个 总 线 事 务 需 要 100 个 时 钟 周期 , 则 总 共 需 要 20 400 个 时 钟 周期 。 


local _sense= ! local sense; //local- sense 取 反 
lock (counterlock); // 确 保 更 新 的 原子 性 
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count+ + // 到 达 进 程 数 加 1 

wlock (counterlock); // 释 放 锁 

if(comnt== total) { // 进 程 全 部 到 达 
count= 0; // 重 置 计数 器 
release= local sense; // 释 放 进 程 

elsef // 还 有 进程 未 到 达 
spin (release= = local sense); // 等 待 信号 


由 上 面 这 些 例 子 可 以 看 出 , 当 多 进程 之 间 竞 争 激烈 时 ,同步 会 成 为 瓶 开 。 当 竞争 很 少 而 
且 同 步 操作 也 较 少时 ,我们 主要 关心 的 是 同步 原 语 操作 的 延迟 , 即 单个 进程 要 花 多 长 时 间 才 
能 完成 一 个 同步 操作 。 基 本 的 旋转 锁 操 作 可 在 两 个 总 线 周期 内 完成 : 一 个 读 锁 , 一 个 写 锁 。 
我 们 可 以 采用 多 种 方法 进行 改进 ,使 它 在 单个 周期 内 完成 操作 。 例 如 ,可 简单 地 在 交换 操作 
上 旋转 。 如 果 锁 经 常 处 于 未 占用 状态 ,这 种 方法 就 很 好 ;但 如 果 锁 已 被 占用 ,就 会 导致 大 量 
的 总 线 事务 ,因为 每 一 个 试图 给 锁 变量 加 锁 的 操作 均 需 要 一 个 总 线 周 期 。 不 过 ,实际 上 旋转 
锁 的 延迟 并 不 像 上 述 例 子 中 所 示 的 那样 糟糕 ,因为 在 实现 中 可 以 对 Cache 的 写 不 命中 加 以 
优化 。 

上 述 例子 中 ,更 严重 的 问题 在 于 进程 进行 同步 操作 的 串 行 化 。 当 有 竞争 时 , 串 行 化 就 会 
成 为 一 个 问题 。 因 为 它 大 幅度 地 增加 了 完成 同步 操作 所 需要 的 时 间 。 栅 栏 的 情况 也 差 不 
多 ,甚至 更 严重 。 


10.5 同时 多 线程 


随 着 在 微 处 理 器 中 开发 的 ILP 的 不 断 提高 ,进一步 开发 出 更 多 的 ILP 已 经 越 来 越 难 
了 ,而 且 在 有 些 程序 中 可 能 开发 ILP 本 来 就 很 困难 。 另 一 方面 ,程序 中 可 能 有 许多 很 自然 
地 存在 的 更 高 一 级 的 并 行 性 。 例 如 ,在 线 事务 处 理 系统 中 多 个 查询 和 更 新 之 间 可 以 自然 地 
并 行 处 理 , 这 是 因为 它们 在 很 大 程度 上 是 相互 独立 的 。 另 外 ,科学 计算 中 也 有 许多 这 类 并 行 
性 。 这 就 是 线程 级 并 行 性 (Thread Level Parallelism. TLP)。 

线程 是 进程 内 的 一 个 相对 独立 且 可 独立 调度 和 指派 的 执行 单元 , 它 比 进程 要 “轻巧 ”得 
多 。 它 只 拥有 在 运行 过 程 中 必 不 可 少 的 一 点 资源 ,如 程序 计数 器 、 一 组 寄存 器 .堆栈 等 。 所 
以 线程 切换 时 ,只 需 保 存 和 设置 少量 寄存 器 的 内 容 , 开 销 很 小 。 线 程 切换 只 需要 几 个 时 钟 周 
期 ,最 快 可 以 每 个 时 钟 周期 切换 一 次 。 而 进程 的 切换 一 般 需 要 成 百 上 千 个 处 理 器 时 钟 周期 。 

实现 多 线程 的 主要 方法 有 两 种 。 第 一 种 方法 是 细 粒 度 多 线程 (Fine-grained 
Multithreading) , 它 在 每 条 指令 之 间 都 能 进行 线程 的 切换 ,从 而 使 得 多 个 线程 可 以 交替 执 
行 。 通 常 以 时 间 片 轮转 的 方法 实现 这 样 的 交替 执行 .在 轮转 的 过 程 中 跳 过 处 于 停顿 的 线程 。 
为 了 使 细 粒 度 多 线程 能 达到 实用 的 水 平 ,.CPU 必须 在 每 个 时 钟 周期 都 能 进行 线程 的 切换 。 
由 于 当 一 个 线程 停顿 时 ,CPU 可 以 立即 执行 其 他 线程 的 指令 ,所 以 细 粒 度 多 线程 的 主要 优 
点 是 不 仅 能 够 隐藏 由 长 时 间 停 顿 引起 的 吞吐 率 的 损失 ,而 且 能 够 隐藏 由 短 时 间 停 顿 带 来 的 
损失 。 其 主要 的 缺点 是 减 慢 了 单个 线程 的 执行 ,这 是 因为 即使 没有 任何 停顿 的 线程 也 不 能 
连续 执行 ,而 且 会 因 其 他 线程 的 指令 的 插入 执行 而 被 延迟 。 
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第 二 种 方法 是 粗 粒 度 多 线程 (Coarse-grained Multithreading), 它 是 针对 细 粒 度 多 线程 
的 缺点 而 提出 的 。 粗 粒度 多 线程 之 间 的 切换 只 发 生 在 时 间 较 长 的 停顿 (例如 第 二 级 Cache 
不 命中 ) 出 现 的 时 候 。 这 一 改变 使 得 粗 粒度 多 线程 不 需要 像 细 粒度 那样 自由 地 切换 ,减少 了 
切换 次 数 , 并 且 也 不 太 会 降低 单个 线程 的 执行 速度 .这 是 因为 只 有 当 线 程 发 生 时 间 较 长 的 停 
顿时 才 会 执行 其 他 线程 的 指令 。 当 然 , 粗 粒度 多 线程 也 有 较 大 的 缺点 : 它 减 少 吞 吐 率 损失 
的 能 力 有 限 ,特别 是 对 于 较 短 的 停顿 来 说 更 是 如 此 。 这 一 缺点 是 由 粗 粒 度 多 线程 的 流水 线 
建立 时 间 的 开销 造成 的 。 由 于 实现 粗 粒 度 多 线程 的 CPU 只 能 执行 单个 线程 的 指令 ,不 能 
交叉 执行 多 个 线程 ,因此 当 发 生 停顿 时 ,流水 线 必须 排 空 或 暂停 。 停 顿 后 切换 的 新 线程 也 有 
个 填 满 流水 线 的 过 程 , 填 满 后 才能 不 断 地 流出 指令 执行 结果 。 由 于 有 启动 开销 , 粗 粒 度 多 线 
程 对 于 减少 长 时 间 停 顿 所 带 来 的 损失 较为 有 效 ,此 时 流水 线 的 建立 时 间 相 对 于 停顿 时 间 来 
说 可 以 忽略 不 计 。 

10. 5. 1 小 节 讨 论 一 种 能 够 在 超标 量 处 理 器 上 同时 开发 ILP 和 TLP 的 细 粒 度 多 线程 
技术 。 


10.5.1 将 线程 级 并 行 转换 为 指令 级 并 行 


同时 多 线程 技术 (Simultaneous Multi Threading,SMT) 是 一 种 在 多 流出 .动态 调度 的 
处 理 器 上 同时 开发 线程 级 并 行 和 指令 级 并 行 的 技术 , 它 是 多 线程 技术 的 一 种 改进 。 提 出 
SMT 的 主要 原因 是 现代 多 流出 处 理 器 通常 含有 多 个 并 行 的 功能 单元 ,而 单个 线程 不 能 有 效 
地 利用 这 些 功 能 单元 。 而 且 , 通 过 寄存 器 重 命名 和 动态 调度 机 制 ,来 自 各 个 独立 线程 的 多 条 
指令 可 以 同时 流出 ,而 不 用 考虑 它们 之 间 的 相互 依赖 关系 ,其 相互 依赖 关系 将 通过 动态 调度 
机 制 得 以 解决 。 

图 10. 16 概念 性 地 描述 了 一 个 超标 量 处 理 器 在 以 下 4 种 情况 下 的 资源 使 用 情况 : 

(1) 不 支持 多 线程 技术 的 超标 量 处 理 器 ; 

(2) 支持 粗 粒 度 多 线程 的 超标 量 处 理 器 ; 

(3) 支持 细 粒 度 多 线程 的 超标 量 处 理 器 ; 

(4) 支持 同时 多 线程 的 超标 量 处 理 器 。 

图 中 横向 表示 每 个 时 钟 周期 的 指令 流出 能 力 , 纵 向 表示 时 钟 周期 序列 , 白 方 格 表示 相应 
的 流出 槽 在 那个 时 钟 周期 没有 被 使 用 .不同 填充 模式 的 方 格 分 别 对 应 于 不 同 线程 。 

在 不 支持 多 线程 的 超标 量 处 理 器 中 ,由 于 缺乏 足够 的 指令 级 并 行 而 限制 了 流出 槽 的 利 
用 率 。 而 且 严 重 的 停顿 ,如 指令 Cache 不 命中 ,将 导致 整个 处 理 器 处 于 空闲 状态 。 

在 粗 粒度 多 线程 超标 量 处 理 器 中 ,通过 线程 的 切换 部 分 隐藏 了 长 时 间 停 顿 带 来 的 开销 ， 
提高 了 硬件 资源 的 利用 率 。 尽 管 这 样 减少 了 完全 空闲 的 时 钟 周期 ,但 由 于 ILP 有 限 ,而 且 
在 粗 粒度 多 线程 处 理 器 中 ,只 有 发 生 停 顿时 才 进 行 线程 切换 ,而 且 新 线程 还 有 个 启动 期 ,所 
以 仍然 可 能 会 有 一 些 完全 空闲 的 时 钟 周期 。 

在 细 粒 度 多 线程 超标 量 处 理 器 中 ,线程 的 交替 执行 消除 了 完全 空闲 的 时 钟 周 期 。 由 于 
在 每 个 时 钟 周期 内 只 能 流出 一 个 线程 的 指令 .ILP 的 限制 导致 了 一 些 时 钟 周期 中 依然 存在 
不 少 空闲 流出 槽 。 

在 SMT 超标 量 处 理 器 中 ,是 同时 开发 实现 线程 级 并 行 和 指令 级 并 行 的 ,允许 在 同一 个 
时 钟 周期 中 由 多 个 线程 共同 使 用 流出 槽 。 理想 情 况 下 .流出 槽 的 利用 率 只 受 限于 多 个 线程 
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(b) 多 线程 的 3 种 情况 
图 10.16 超标 量 处 理 器 中 使 用 流出 槽 的 4 种 方法 


对 资源 的 需求 和 可 用 资源 间 的 不 平衡 .但 实际 中 也 受 其 他 一 些 因 素 的 限制 ,包括 活跃 线程 的 
个 数 .缓冲 大 小 的 限制 ,从 多 个 线程 取出 足够 多 条 指令 的 能 力 、 线 程 之 间 哪 些 指令 组 合 可 以 
同时 流出 等 。 图 10. 16 较 好 地 说 明了 多 线程 和 同时 多 线程 在 提高 性 能 方面 的 潜在 优势 (该 
图 对 处 理 器 的 实际 操作 情况 进行 了 很 大 的 简化 ) 。 

如 上 所 述 ,动态 调度 的 处 理 器 已 经 具备 了 开发 线程 级 并 行 所 需 的 许多 硬件 设置 。 具 体 
来 说 ,动态 调度 超标 量 处 理 器 有 一 组 很 多 的 虚拟 寄存 器 ,可 以 用 作 各 独立 线程 的 寄存 器 组 
(假设 每 个 线程 都 有 一 个 独立 的 重 命 名 表 )。 由 于 寄存 器 重 命 名 机 制 给 各 寄存 器 提供 了 唯一 
的 标识 ,多 个 线程 的 指令 可 以 在 数据 路 径 上 混合 执行 .而 不 会 导致 各 线程 之 间 源 操作 数 和 目 
的 操作 数 的 混乱 。 这 表明 ,只 要 为 每 个 线程 设置 重 命名 表 、 分 别 设置 各 自 的 程序 计数 器 并 为 
多 个 线程 提供 指令 确认 的 能 力 , 多 线程 就 可 以 在 一 个 乱 序 执行 的 处 理 器 的 基础 上 实现 。 


10.5.2 同时 多 线程 处 理 器 的 设计 


因为 动态 调度 超标 量 处 理 器 一 般 都 进行 深度 流水 ,如 果 采 用 粗 粒 度 方式 实现 同时 多 线 

程 , 可 能 不 会 获得 很 多 性 能 上 的 提高 ,所 以 只 有 在 细 粒 度 的 实现 方式 下 才 有 意义 。 但 我 们 又 

担心 细 粒 度 调度 方式 会 对 单个 线程 的 性 能 产生 不 利 的 影响 。 这 种 影响 可 以 通过 采用 优先 线 

程 的 方法 来 尽 可 能 地 减少 。 这 种 方法 既 能 保持 多 线程 在 性 能 上 的 优势 ,又 对 单个 线程 的 性 
影响 比较 少 。 
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不 过 ,采用 优先 线程 方法 时 , 若 优 先 线程 被 停顿 ,处 理 器 将 损失 一 些 知 吐 率 。 这 是 因为 
这 时 流水 线 中 的 指令 可 能 不 像 原来 那样 来 自 多 个 线程 。 只 有 足够 多 数目 的 独立 线程 混合 执 
行 ,才能 隐藏 各 种 情况 下 的 停顿 ,从 而 使 吞吐 率 达 到 最 大 化 。 

多 个 线程 的 混合 执行 不 可 避免 地 会 影响 单个 线程 的 执行 速度 ,类 似 的 问题 在 取 指 阶段 
也 存在 。 为 提高 单个 线程 的 性 能 ,应 该 为 指定 的 优先 线程 尽 可 能 多 地 向 前 取 指 (或 许 在 分 支 
指令 的 两 条 路 径 上 都 要 向 前 取 指 ) ,并 且 在 分 支 预 测 失败 和 预 取 缓冲 器 不 命中 的 情况 下 清空 
取 指 单元 。 但 是 这 样 限制 了 其 他 线程 可 用 来 调度 的 指令 条 数 ,从 而 降低 了 吞吐 率 。 所 有 的 
多 线程 处 理 器 都 必须 在 这 里 寻求 一 种 折 中 方案 。 

实际 上 ,进行 资源 划分 以 及 在 单个 线程 性 能 和 多 个 线程 性 能 之 间 进 行 平衡 并 不 像 我 们 
想象 得 那么 复杂 ,至 少 对 于 目前 的 超标 量 处 理 器 来 说 是 这 样 。 例 如 ,对 于 现在 的 每 个 时 钟 周 
期 流出 4 一 8 条 指令 的 计算 机 来 说 ,有 几 个 活跃 线程 就 够 了 ,优先 线程 就 更 少 了 。 只 要 一 有 
可 能 ,处 理 器 就 运行 指定 的 优先 线程 。 从 取 指 阶段 开始 就 优先 处 理 优 先 线程 : 只 要 优先 线 
程 的 指令 预 取 缓冲 区 未 满 ,就 为 它们 优先 取 指 。 只 有 当 优先 线程 的 缓冲 区 填 满 以 后 才 为 其 
他 线程 预 取 指 令 。 需 要 注意 的 是 , 当 有 两 个 优先 线程 时 ,意味 着 需要 并 发 预 取 两 条 指令 流 ， 
这 给 取 指 部 件 和 指令 Cache 都 增添 了 复杂 度 。 同 样 地 ,指令 流出 单元 也 要 优先 考虑 指定 的 
优先 线程 ,只 有 当 优 先 线程 停顿 不 能 流出 的 时 候 才 考虑 其 他 线程 。 

下 面 是 设计 同时 多 线程 处 理 器 时 面临 的 其 他 主要 问题 : 

(1) 需要 设置 更 大 的 寄存 器 组 ,用 来 保存 多 个 线程 的 现场 ; 

(2) 不 能 影响 时 钟 周 期 ,特别 是 在 关键 路 径 上 ,如 指令 流出 和 指令 完成 。 指 令 流出 时 ， 
有 更 多 的 候选 指令 需要 考虑 ;在 指令 完成 时 ,选择 提交 哪些 指令 可 能 会 比较 困难 ; 

(3) 需要 保证 由 于 并 发 执行 多 个 线程 带 来 的 Cache 冲突 和 TLB 冲突 不 会 导致 明显 的 
性 能 下 降 。 

在 考虑 这 些 问题 时 ,需要 重视 以 下 两 种 实际 情况 : 第 一 ,在 许多 情况 下 ,多 线程 所 导致 
的 潜在 额外 性 能 开销 是 很 小 的 ,简单 的 线程 切换 选择 算法 就 足够 好 了 ;第 二 ,目前 的 超标 量 
处 理 器 的 效率 是 比较 低 的 ,还 有 很 大 的 改进 余地 ,即使 增加 一 些 开销 也 是 值得 的 。 

由 于 同时 多 线程 在 多 流出 超标 量 处 理 器 上 开发 线程 级 并 行 ,所 以 最 适合 于 应 用 到 面向 
服务 器 市 场 的 高 端 处 理 器 上 。 另 外 ,还 可 以 限定 多 线程 的 并 发 数量 ,这 样 就 可 以 最 大 限度 地 
提高 单个 线程 的 性 能 。 


10.5.3 同时 多 线程 的 性 能 


采用 同时 多 线程 技术 能 够 获得 多 大 的 性 能 提高 ? 随 着 超标 量 处 理 器 的 广泛 应 用 ,这 一 
关键 问题 受到 了 人 们 的 关注 。 下 面 研 究 在 超标 量 处 理 器 基础 上 采用 同时 多 线程 技术 时 性 能 
的 提高 情况 。 

图 10.17 给 出 了 在 超标 量 处 理 器 上 增添 8 个 线程 的 同时 多 线程 能 力 时 所 获得 的 性 能 提 
高 ,图 中 纵 坐 标的 单位 是 每 个 时 钟 周期 所 执行 的 指令 数 。 这 里 假设 增添 同时 多 线程 不 会 导 
致 时 钟 周期 的 开销 恶化 。 测 试 程序 包括 多 道 程序 执行 的 SPEC 子 集 , Web 服务 程序 
Apache, 数 据 库 OLTP 和 决策 支持 DSS 的 测试 程序 。 

使 用 同时 多 线程 所 获得 的 吞吐 率 的 提高 很 显著 , 达 1.7 一 4. 2 倍 , 平 均 3 倍 。 为 更 好 地 
理解 这 些 提高 从 何 而 来 ,图 10. 18 给 出 了 处 理 器 内 部 部 件 的 利用 率 和 命中 率 。 正 如 我 们 所 
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图 10.17 在 超标 量 处 理 器 上 增添 8 个 线程 的 同时 多 线程 能 力 获得 的 性 能 提高 


预料 的 那样 ,同时 多 线程 处 理 器 的 取 指 部 件 和 功能 部 件 的 利用 率 大 为 提高 。 分 支 预测 的 精 
确 度 和 指令 Cache 的 命中 率 的 比较 同样 令 人 惊讶 : 同时 多 线程 处 理 器 的 性 能 更 好 。 不 过 ， 
数据 Cache 的 性 能 稍 差 ,而 二 级 Cache 的 性 能 稍 好 。 这 可 能 是 由 于 二 级 Cache 足够 大 ,可 以 
容纳 多 个 线程 的 工作 集 。 
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图 10.18 SMT 与 基本 的 超标 量 处 理 器 在 几 个 主要 指标 上 的 对 比 


在 解释 这 些 性 能 的 显著 提高 时 ,可 以 看 出 两 个 特点 。 首 先 ,超标 量 处 理 器 本 身 功能 十 分 
强大 , 它 具有 很 大 的 一 级 Cache、 二 级 Cache 以 及 大 量 的 功能 部 件 。 仅 仅 采用 指令 级 并 行 ， 
不 可 能 利用 全 部 的 硬件 性 能 ,因此 超标 量 处 理 器 的 设计 者 不 可 能 不 考虑 使 用 诸如 同时 多 线 
程 这 样 的 技术 来 开发 线程 级 并 行 。 其 次 ,同时 多 线程 的 能 力也 很 强大 ,可 以 支持 8 个 线程 ， 
并 为 两 个 线程 同步 取 指 。 将 超标 量 和 同时 多 线程 结合 起 来 ,在 指令 级 并 行 的 基础 上 进一步 
开发 线程 级 并 行 ,可 以 获得 显著 的 性 能 提高 。 
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第 
10.6 ”大 规模 并 行 处 理 机 . 


10.6.1 并 行 计算 机 系统 结构 


目前 流行 的 高 性 能 并 行 计算 机 系统 结构 通常 可 以 分 成 以 下 5 类 : 

(1) 并 行 向 量 处 理 机 (Parallel Vector Processor,PVP); 

(2) 对 称 式 共享 存储 器 多 处 理 机 (Symmetric shared-memory Multi Processor,SMP); 

(3) 分 布 式 共享 存储 器 多 处 理 机 (Distributed Shared-memory Multi processor, DSM); 

(4) 大 规模 并 行 处 理 机 (Massively Parallel Processor, MPP); 

(5) 机 群 计 算 机 (Cluster) 。 

1. 并 行 向 量 处 理 机 

典型 的 PVP 的 结构 如 图 10. 19(a) 所 示 。Cray C-90 和 Cray T-90 是 这 类 机 器 的 代表 。 

PVP 系统 一 般 由 若干 台 高 性 能 向 量 处 理 机 (VP) 构 成 。 这 些 向 量 处 理 机 是 专门 设计 和 
定制 的 ,拥有 很 高 的 向 量 处 理性 能 ,例如 ,每 个 VP 至 少 达 到 1GFLOPS 的 处 理 速 度 。PVP 
中 经 常 采用 专门 设计 的 高 带宽 的 交叉 开关 网 络 ,把 各 VP 与 共享 存储 器 模块 SM 连接 起 来 。 
这 样 的 机 器 通常 不 使 用 Cache, 而 是 使 用 大 量 的 向 量 寄存 器 和 指令 缓冲 器 。 

2. 对 称 式 共 享 存储 器 多 处 理 机 和 分 布 式 共享 存储 器 多 处 理 机 

这 两 种 体系 结构 已 在 本 章 的 前 面 几 节 中 进行 了 详细 的 讨论 ,这 里 不 再 重复 。 

3. 大 规模 并 行 处 理 机 

MPP 的 结构 如 图 10. 19(b) 所 示 。Intel Paragon 和 IBM SP2 是 这 类 机 器 的 代表 。 

MPP 往往 是 超大 规模 的 计算 机 系统 , 它 具 有 以 下 特点 : 

(1) 处 理 节 点 使 用 商用 微 处 理 器 ,而 且 每 个 节点 可 以 有 多 个 微 处 理 器 ; 

(2) 具有 和 较 好 的 可 扩 放 性 ,能 扩展 成 具有 成 百 上 千 个 处 理 器 的 系统 ; 

(3) 系统 中 采用 分 布 非 共 享 的 存储 器 ,各 节点 有 自己 的 地 址 空间 ; 

(4) 采用 专门 设计 和 定制 的 高 性 能 互连网 络 ; 

(5) 采用 消息 传递 的 通信 机 制 。 

4. 机 群 计算 机 

机 群 是 一 种 价格 低廉 .易于 构建 可 扩 放 性 极 强 的 并 行 计算 机 系统 。 它 由 多 台 同 构 或 异 
构 的 独立 计算 机 通过 高 性 能 网 络 或 局 域 网 互 连 在 一 起 .协同 完成 特定 的 并 行 计算 任务 。 

机 群 的 结构 如 图 10. 19(c) 所 示 。Berkeley NOW 和 SP2 是 这 类 机 器 的 代表 。 

机 群 的 主要 特点 有 : 

(1) 每 个 节点 都 是 一 台 完 整 的 计算 机 ,拥有 本 地 磁盘 和 操作 系统 ,可 以 作为 一 个 单独 的 
计算 资源 供用 户 使 用 。 机 群 的 节点 可 以 是 PC 工作 站 ,甚至 是 对 称 多 处 理 机 ; 

(2) 机 群 的 各 个 节点 一 般 通 过 商品 化 网 络 连接 在 一 起 ,如 以 太 网 .FDDI、Myrinet 等 ; 

(3) 网 络 接口 (NIC) 以 松散 耦合 的 方式 连接 到 节点 的 IJ/O 总 线 (与 此 不 同 , MPP 中 节点 
的 网 络 接口 (NIC) 是 以 紧 耦 合 的 方式 连接 到 节点 的 存储 总 线 ) 。 

第 11 章 将 专门 讨论 机 群 。 
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VP VP 


交叉 开关 网 络 


| 必 三 避 


商品 网 络 (以 太 网 、ATM 等 ) | 


SM SM 


定制 网 络 


(a) PVP 


LD 


NIC 


(©) 机群 


图 10.19 


(b) MPP 


VP: 
SM 
P/C 
LM、M : 本 地 存储 器 
NIC : 网 络 接口 电路 
MB : 存储 器 总 线 
LD : 本 地 磁盘 

JOB : IO 总 线 


向 量 处 理 器 
: 共享 存储 器 模块 


: 商品 微 处 理 器 /Cache 


B : 存储 总 线 与 /0 总 线 之 间 


三 种 MIMD 计算 机 的 结构 图 


表 10. 3 对 这 5 类 机 器 特征 进行 了 简单 的 比较 。 表 中 的 NORMA(NO-Remote Memory 
Access) 是 非 远 程 存储 器 访问 模型 的 简称 。 在 一 个 分 布 存 储 的 多 处 理 机 系统 中 ,如 果 所 有 的 
存储 器 都 是 私有 的 , 仅 能 由 其 自己 的 处 理 器 访问 ,就 称 为 NORMA。 


表 10.3 5 类 机 器 特征 比较 


属性 PVP SMP MPP DSM 机 和 群 

结构 类 型 MIMD MIMD MIMD MIMD MIMD 

处 理 器 类 型 | 专用 定制 商用 商用 商用 商用 

互连网 络 “| 中 草 安 及 | 总线、 交叉 开关 。 | 定制 网 络 定制 网 络 ne 

通信 机 制 共享 变量 共享 变量 消息 传递 共享 变量 消息 传递 

地 址 空间 单 地 址 空间 | 单 地 址 空间 多 地 址 空间 单 地 址 空间 多 地 址 空间 

系统 存储 器 | 集中 共享 集中 共享 分 布 非 共享 分 布 共 享 分 布 非 共 享 

访 存 模型 ”| UMA UMA NORMA NUMA NORMA 

| 
NEC SX4, | DEC Alpha 服务 器 | TFLOPS, 曙光 - 0 
银河 1 号 8400 ,曙光 1 号 1000/2000 
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10.6.2 大 规模 开行 处 理 机 


1. MPP 的 出 现 和 发 展 

在 诸如 科学 计算 .工程 模拟 ,信号 处 理 、 数 据 仓 库 等 应 用 中 ,为 了 更 好 地 利用 并 行 性 ,SMP 
系统 的 能 力 已 经 不 能 满足 要 求 , 需 要 使 用 可 扩 放 性 更 好 的 计算 机 平台 。MPP 就 是 其 中 一 种 。 

从 20 世纪 80 年 代 末 开始 ,MPP 系统 逐渐 地 显示 出 代替 和 超越 向 量 计算 多 处 理 机 系统 
的 趋势 。 早 期 的 MPP 有 Intel Paragon(1992 年 )、KSR1. Cray T3D(1993 年 )、IBM SP2 
(1994 年 ) 等 ,它们 都 是 分 布 存储 的 MIMD 计算 机 。MPP 的 高 端 机 器 是 1996 年 Intel 公司 
的 ASCI Red 和 1997 年 SGI Cray 公司 的 T3E900 ,它们 都 是 万 亿 次 浮 点 运算 的 高 性 能 并 行 
计算 机 。 在 这 个 时 期 ,消息 传递 的 大 规模 并 行 处 理 系统 得 到 了 迅速 发 展 ,不 少 公司 推出 了 基 
于 消息 传递 的 MPP 系统 。 不 过 ,由 于 可 编程 差 等 原因 ,这 些 系 统 主要 被 用 于 科学 计算 ,很 
少 被 用 在 事务 处 理 等 其 他 领域 。 

由 于 MPP 研制 费用 高 , 故 主要 由 大 公司 或 研究 机 构 研制 生产 ,尤其 是 超大 规模 的 MPP 系 
统 , 通 常 体现 为 政府 行为 ,如 美国 的 ASCI 计划 中 的 高 端 并 行 机 。ASCI 计划 由 美国 能 源 部 出 
资 ,由 IBM ,Intel .SGI 三 家 公司 研制 超级 计算 机 ,由 美国 三 大 军用 实验 室 用 于 进行 核武 器 测试 。 

20 世纪 90 年 代 的 中 期 ,在 中 低档 市 场 上 ,SMP 以 其 更 优 的 性 能 /价格 比 代替 了 MPP。 
而 且 机 群 系统 的 出 现 更 是 使 MPP 受到 了 人 们 的 冷落 。 从 20 世纪 90 年 代 后 期 开始 , 随 着 一 
些 专门 生产 并 行 机 的 公司 的 倒闭 或 被 兼并 ,基于 消息 传递 的 MPP 系统 慢 慢 地 从 主流 的 并 
行 处 理 市 场 退出 。 

随 着 网 络 技术 的 发 展 ,机 群 系统 和 MPP 系统 的 界限 越 来 越 模糊 。 例 如 ,IBM 公司 的 
SP2 系统 既 被 看 成 MPP ,又 被 看 成 机 群 系统 。 这 反映 了 20 世纪 90 年 代 后 期 以 来 高 性 能 计 
算 机 系统 结构 发 展 的 一 个 趋势 ,新 涌现 的 高 性 能 计算 机 系统 大 多 数 都 是 由 可 扩 放 的 高 速 互 
连 网 络 连 接 的 基于 RISC 微 处 理 器 的 对 称 多 处 理 机 机 群 。 

在 2001 年 6 月 的 全 球 高 性 能 计算 机 500 强 (Top500) 排 名 中 .MPP 有 314 台 ,机 群 系统 
只 有 32 个 。MPP 仍 占 有 绝对 的 优势 。 但 到 了 2008 年 ,在 Top500 强 中 ,MPP 只 有 98 台 ， 
而 机 群 系统 则 达到 了 400 个 , 占 80%。 这 说 明 机 群 系统 已 经 成 了 构建 超大 规模 并 行 计算 机 
系统 的 主要 模式 ,MPP 则 慢 慢 地 退 居 二 三 线 了 。 

2. MPP 系统 概述 

MPP 结构 的 一 个 重要 特性 是 可 扩 放 性 .不仅 处 理 器 的 数量 可 扩 放 至 数 千 个 处 理 器 ,而 
且 主 存 .1/O 能 力 和 带宽 也 能 随处 理 器 数量 的 增长 而 成 比例 地 增长 。MPP 主要 采用 了 以 下 
技术 来 提高 系统 的 可 扩 放 性 。 

(1) 使 用 物理 上 分 布 的 主 存 体系 结构 ,使 分 布 式 主 存 的 总 容量 和 总 带宽 能 随处 理 节点 
数量 的 增加 而 增加 。 这 种 分 布 式 主 存 结构 比 集中 式 主 存 结构 具有 潜在 的 更 高 可 扩 放 性 。 

(2) 处 理 能 力主 存 与 1/O 能 力 平衡 发 展 。 随 着 处 理 节 点 数量 的 增长 ,不仅 MPP 系统 
的 处 理 能 力 随 之 增长 ,而 且 系 统 的 主 存 与 1/0 能 力也 随 之 平衡 增长 。 如 果 系 统 的 主 存 与 
I/O 能 力 不 能 随处 理 能 力 的 提高 而 平衡 发 展 ,高 速 的 处 理 能 力 就 毫 无 价值 。 

(3) 计算 能 力 与 并 行 性 平衡 发 展 。 一 个 计算 作业 可 分 解 成 多 个 任务 分 配 到 多 个 处 理 节 
点 上 并 行 执行 。 并 行 处 理 的 性 能 在 很 大 程度 上 依赖 于 计算 /通信 比值 ,如 果 这 个 比值 较 小 ， 
就 说 明 并 行进 程 /线程 管理 及 通信 同步 的 时 间 开 销 将 占 作 业 执 行 时 间 的 较 大 部 分 。 因 此 ， 
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MPP 的 计算 能 力 随 处 理 节点 数量 的 增长 而 增长 时 ,也 要 使 处 理 节点 的 并 行 能 力 平衡 发 展 。 
表 10.4 列 出 了 三 种 大 型 MPP 的 特点 。 它 们 分 别 代表 构造 大 型 系统 的 不 同方 法 。 


表 10.4 三 种 大 型 MPP 的 比较 
MPP 模型 se IBM SP2 SGI/Cray Origin 2000 
Option Red 

典型 配 图 9072 个 处 理 器 400 个 处 理 器 128 个 处 理 器 

1.8TFLOPSCNSL) 100GFLOPS(MHPCC) 51GFLOPS(NCSA) 
推出 日 期 1996 年 12 月 1994 年 9 月 1996 年 10 月 
ep 200MHz,200MFLOPS 67MHz,267MFLOPS 200MHz,400MFLOPS 

Pentium Pro Power2 MIPS R10000 

节点 结构 2 个 处 理 器 ,32 一 256MB 主 | 1 个 处 理 器 ,64MB 一 2GB 本 | 2 个 处 理 器 , 64 ~ 256MB 
数据 存储 存 ,共享 磁盘 地 主 存 ,1 一 14. 5GB 本 地 磁盘 | 分 布 共享 主 存 和 共享 磁盘 
互连网 络 分 离 二 维 网 孔 多 级 网 络 超 立 方 体 网 格 
访 存 模型 NORMA NORMA CC-NUMA 
节点 OS 轻 量 级 内 核 (LWK) 完全 AIX(IBM UNIX) 微 内 核 Cellular IRIX 
编程 语言 基于 PUMA Portals 的 MPI | MPI 和 PVM Power C, Power FORTRAN 
其 他 编程 模型 HPF，Linda MPI, PVM 


NX, PVM, HPF 


Intel ASCI 系 统 遵 循 了 小 节点 、. 紧 耦合 网 络 互 连 和 计算 节点 的 微 内 核 操作 系统 ,是 一 种 
更 传统 的 MPP 方法 。 它 是 Intel Paragon MPP 系统 的 后 代 。SP2 和 Intel ASCI 都 是 使 用 
NORMA 访 存 模型 的 消息 传递 多 计算 机 ,节点 间 的 通信 依靠 机 器 中 的 显 式 消息 传递 。 
SGI/Cray Origion 2000 代表 一 种 构造 MPP 的 不 同方 法 ,其 特征 为 一 个 可 全 局 存 取 的 
物理 上 分 布 的 主 存 系统 ,使 用 硬件 支持 Cache 的 一 致 性 。 另 一 采用 类 似 于 Cache 一 致 性 非 
匀 存 储 访 问 (Cache-Coherent Non-Uniform Memory Access,CC-NUMA) 体 系 结构 的 
MPP 是 HP/Convex Exemplax X-Class。Cray 的 T3E 系统 也 是 分 布 式 共享 存储 机 器 ,但 没 
有 硬件 支持 的 Cache 一 致 性 ,因此 是 一 个 NCC-NUMA(CNon Cache-Coherent Non-Uniform 
Memory Access) 机 器 。 这 种 分 布 式 共享 存储 机 器 的 本 地 编程 环境 提供 了 共享 变量 模型 。 
在 应 用 编程 的 层次 上 ,所 有 MPP 现在 都 支持 如 C.FORTRAN、HPF、PVM 和 MPI 等 的 标 


准 语言 和 库 。 


表 10. 5 列 出 了 一 些 典 型 的 MPP 系统 的 特性 。 
表 10.5 典型 MPP 系统 特性 比较 


Intel/Sandi 
结构 特性 ”| IBM SP2 Cray T3D Cray T3E Intel Paragon De Sondio 
Option Red 
典型 配置 400 个 节点 512 个 节点 512 个 节点 400 个 节点 4536 个 节点 
100GFLOPS 153GFLOPS 1.2TFLOPS | 40GFLOPS 1. 8TFLOPS 

推出 日 期 1994 年 1993 年 1996 年 1992 年 1996 年 

67MHz 150MHz 300MHz 50MHz 200MHz 
CPU 类 型 | 267MFLOPS 150MFLOPS 600MFLOPS | 100MFLOPS 200MFLOPS 

Power2 Alpha 21064 Alpha 21164 Intel 1860 Pentium Pro 
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续 表 名 
1CPU wy 
i 4~8CPU 1~2CPU 2CPU 章 
节点 结构 ee ee 主 存 256MB 一 16GB| 16 一 128MB 32~256MB 
数据 存储 | |] 5GB 本 地 50GB 共享 故 基 DSM 主 存 ， | 本 地 存储 器 ， 本 地 存储 器 ， 
pi ” Se 共享 磁盘 40GB 共享 磁盘 | 共享 磁盘 
互连网 络 ”| 多 级 网 络 三 维 环绕 三 维 环绕 二 维 网 孔 分 离 二 维 网 孔 
访 存 模型 NORMA NUMA NCC-NUMA | NORMA NORMA 
SE 完全 AIX 基于 Chorus 轻 量 级 内 核 
节点 OS | (IBM UNIX) “| 微 内 核 的 微 内 核 要 内 煤 (LWK) 
, 共享 变量 、 消 息 | 共享 变量 、 消 基于 PUMA 
| 证人 人 全 传递 .PVM 息 传 递 .PVM 消息 传递 Portals 消息 传递 
编程 语言 adh MPI. HPF MPI. HPF NX.MPI.PVM | NX.PVM.HPF 
HPF .Linda 
点 到 点 . 
通信 延迟 “| 40ps 2ps N/A 30ps 10ps 
点 到 点 带宽 | 35MB/s 150MB/s 480MB/s 175MB/s 380MB/s 
10.7 多 处 理 机 实例 1 一 一 Tl 
1. T1 的 结构 


Tl 是 Sun 公司 于 2005 年 作为 服务 器 处 理 器 发 布 的 多 核 多 处 理 器 。 之 所 以 要 介绍 
Tl ,是 因为 它 有 一 点 很 特别 , 即 它 的 设计 者 几乎 把 所 有 的 努力 都 放 到 了 开发 线程 级 并 行 
性 上 ,而 不 像 现 在 大 多 数 的 处 理 器 那样 开发 指令 级 并 行 。T1 是 近 5 年 来 推出 的 唯一 一 个 
用 于 桌面 计算 或 服务 器 的 单 流出 微 处 理 器 。 它 同时 采用 了 多 线程 和 多 核 技术 ,全 面 提高 
吞吐 率 。 

每 个 Tl 处 理 器 中 有 8 个 处 理 器 核 ,每 个 核 最 多 支持 4 个 线程 。 每 个 处 理 器 核 中 都 有 
一 条 6 段 的 单 流出 流水 线 。 该 流水 线 类 似 于 在 第 3 章 中 介绍 的 5 段 流 水 线 ,只 是 增加 了 一 
个 段 ,用 于 进行 线程 切换 。T1 采用 细 粒 度 多 线程 ,在 每 个 时 钟 周期 都 可 以 切换 到 新 的 线程 ， 
而 且 在 调度 时 可 以 跳 过 那些 因 流 水 线 延 迟 或 Cache 不 命中 而 处 于 等 待 状 态 的 线程 。T1 处 
理 器 只 有 在 所 有 其 4 个 线程 都 处 于 等 待 或 停顿 时 才 会 出 现 空闲 状态 。load 和 分 支 指令 会 导 
致 三 个 时 钟 周期 的 延迟 ,不 过 它们 都 可 以 通过 执行 其 他 线程 而 被 隐藏 。 由 于 浮 点 计算 不 是 
Tl 的 重点 ,因此 所 有 8 个 核 共 享 一 组 浮 点 功能 部 件 。 

Tl 的 组 成 结构 如 图 10. 20 所 示 。 它 共有 8 个 核 ,每 个 核 中 都 带 有 一 个 第 一 级 Cache。 
8 个 核 通过 一 个 交叉 开关 与 4 个 第 二 级 (L2)Cache 相连 。 与 浮 点 部 件 的 连接 也 是 如 此 。 它 
用 目录 表 法 来 实现 Cache 内 容 的 一 致 性 ,其 目录 表 中 对 于 每 一 个 L2 Cache 块 都 有 相应 的 一 
项 。 所 采用 的 一 致 性 方法 类 似 于 10. 3 节 中 介绍 的 方法 ,只 不 过 那里 的 目录 表 是 记录 哪些 
Cache 中 有 主 存 块 的 副本 的 ,而 这 里 的 目录 表 是 记录 哪些 Ll1 Cache 中 有 L2 Cache 块 的 副 
本 的 。 通 过 把 每 个 L2 Cache 与 一 个 具体 的 主 存 存储 体 相关 联 , 并 强制 实现 包含 性 ,就 使 得 
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T1 可 以 把 目录 表 放 在 L2 级 的 位 置 上 ,而 不 是 放 到 主 存 中 。 这 样 可 以 有 效 地 减少 访问 目录 
的 开销 。 由 于 Ll 数据 Cache 采用 写 直 达 法 ,所 以 实现 一 致 性 仅 需要 一 种 消息 : 写作 废 ,而 


且 所 访问 的 数据 最 终 都 能 从 L2 Cache 中 获得 。 


处 理 器 核 L2 Cache 至 存储 器 
处 理 器 核 
浆 青 器 术 L2 Cache 至 存储 器 
目录 

处 理 器 核 [= 

| 交叉 开关 L2 Cache 至 存储 器 
处 理 器 核 一 目录 
处 理 器 核 L2 Cache |_| 至 存储 器 
处 理 器 核 EPs 

浮 点 部 件 

处 理 器 核 


图 10.20 Tl 处 理 器 的 组 成 结构 


表 10.6 中 列 出 了 Tl 的 主要 特征 。 


表 10.6 TIl 处 理 器 的 主要 特征 


特 征 Sun Tl 

每 芯片 8 个 核 ,每 核 4 个 线程 , 细 粒 度 线程 调度 
多 处 理 器 和 多 线程 支持 。 | 个 核 共享 一 个 浮 点 运算 部 件 ,支持 片 内 多 处 理 器 
流水 线 结构 简单 的 按 序 6 段 流水 线 ,load 和 分 支 的 延迟 为 三 个 时 钟 周期 
_ 级 Cach 16KB 指令 Cache,8KB 数据 Cache,64 字 节 块 大 小 

Oe 在 无 竞争 的 情况 下 ,LI 不 命中 的 开销 是 23 个 时 钟 周期 
一 级 Cache 4 个 独立 的 二 级 Cache, 每 个 750KB 且 和 存储 体 相 连 ,64 字 节 块 大 小 
ro 在 无 竞争 的 情况 下 ,L2 不 命中 的 开销 是 110 个 时 钟 周期 

90nm 工艺 ,最 高 时 钟 频率 1. 2GHz, 电 源 功率 79W 
初始 版 本 300M 个 晶体 管 , 贺 片面 积 大 小 379mm 
2. T1l 的 性 能 


下 面 来 看 看 T1 的 性 能 。 所 用 的 基准 测试 程序 是 以 下 三 个 面向 服务 器 的 程序 , TPC-C， 
SPECJBB(SPEC Java 商用 基准 测试 程序 ) 和 SPECWeb99。 由 于 SPECWeb99 不 能 扩展 到 
8 个 处 理 核 上 以 利用 32 个 线程 ,所 以 它 是 在 一 个 Tl 的 4 核 版 本 上 运行 的 。 其 他 测试 程序 


都 是 在 8 核 32 个 线程 的 版 本 上 运行 的 。 


如 前 所 述 , 多 处 理 器 的 性 能 是 取决 于 存储 系统 以 及 与 应 用 程序 的 交互 的 。 对 于 T1 来 


说 ,L2 Cache 的 容量 和 块 的 大 小 是 关键 的 参数 。 


图 10. 21 给 出 了 在 以 下 不 同情 况 下 L2 


Cache 的 不 命中 率 : L2 Cache 容量 分 别 为 1. 5MB、3MB 和 6MB, 块 大 小 分 别 为 32B 和 64B。 
显然 ,3MB 的 L2 Cache 性 能 优 于 1. 5MB, 而 6MB 又 优 于 3MB。 在 另 一 方面 ,与 采用 32B 


多 处 理 机 


的 块 相 比 ,采用 64B 的 块 能 提高 性 能 ,但 提高 得 不 多 , 远 没有 达到 一 售 ,而 且 会 带 来 更 多 的 
访 存 次 数 。 所 以 ,采用 较 大 的 块 是 否 会 获得 性 能 上 的 提高 还 很 难说 ,要 依存 储 器 系统 的 特点 
所 定 。 
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SPECJBB 
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图 10.21 在 不 同 容量 和 块 大 小 的 情况 下 ,L2 Cache 的 不 命中 率 


多 个 线程 会 导致 出 现 访 存 冲 突 。Cache 容量 大 小 和 块 大 小 对 存储 器 的 访问 冲突 会 产生 
什么 样 的 影响 呢 ? 图 10. 22 给 出 了 在 与 图 10. 21 相同 的 各 种 情况 下 ,L2 Cache 不 命中 开销 
的 变化 情况 。 可 以 看 出 , 当 块 大 小 由 32B 增加 到 64B 时 ,不 命中 开销 只 增加 了 很 少 一 点 ,这 
是 由 现代 DRAM 存储 器 的 特点 所 决定 的 。 对 于 这 样 的 存储 器 ,访问 一 个 块 比 访问 一 个 字 
只 是 稍微 增加 一 点 时 间 而 已 。 另 外 ,对 比 图 10. 22 和 图 10. 21 可 以 看 出 ,虽然 SPECJBB 的 
不 命中 率 比 TPC-C 的 低 很 多 ,但 其 不 命中 开销 却 与 TPC-C 的 相近 ,这 是 因为 SPECJBB 有 
高 得 多 的 块 不 命中 率 , 经 常会 发 生 L2 Cache 块 的 写 回 。 

200 广 
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图 10.22 在 不 同 容 量 和 块 大 小 的 情况 下 ,L2 Cache 的 不 命中 延迟 


表 10.7 给 出 了 T1 的 每 线程 CPI、 每 核 CPI 以 及 有 效 的 IPC( 每 个 时 钟 周 期 完成 的 指令 
数 )。 由 于 Tl 是 一 个 细 粒 度 多 线程 处 理 器 ,而 且 每 个 核能 支持 4 个 线程 ,所 以 在 有 足够 多 
并 行 性 的 情况 下 ,理想 的 “每 线程 CPI” 是 4, 即 每 个 线程 是 每 4 个 时 钟 周期 完成 一 条 指令 的 。 
这 是 因为 在 每 4 个 时 钟 周期 中 ,4 个 周期 平均 分 配给 4 个 线程 ,就 是 每 个 线程 只 能 执行 一 个 
时 钟 周期 。 在 这 种 情况 下 ,理想 的 每 核 CPI 为 1。T1 的 有 效 IPC 二 8 二 每 核 CPI。 
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表 10.7 TI 处 理 器 的 一 些 性 能 指标 


基准 测试 程序 每 线程 CPI 每 核 CPI 8 个 核 的 有 效 CPI | 8 个 核 的 有 效 IPC 
TPC-C 人 EL 0. 225 4.4 
SPECJBB 5.6 1.40 0.175 5.7 
SPECWeb99 6.6 1.65 0. 206 4.8 


对 于 上 述 三 个 测试 基准 程序 来 说 ,Tl 的 有 效 吞 吐 率 只 有 理想 值 的 56% 一 71%。 看 起 
来 似乎 不 太 有 效 ,但 与 超标 量 处 理 器 相 比 ,已 经 非常 好 了 。 像 Itanium 2( 与 Tl 相 比 ,更 多 的 
晶体 管 ,高 得 多 的 功 耗 ,相当 的 硅 面 积 ) 那 样 的 处 理 器 要 持续 达到 每 个 时 钟 周期 完成 4. 5 一 
5.7 条 指令 的 速率 ,需要 有 令 人 难以 置信 的 指令 吞吐 率 。 因 为 4.5 一 5.7 已 经 是 比 普遍 认可 
的 IPC 高 出 一 倍 多 了 。 显 然 ,对 于 面向 整 型 运算 的 多 线程 服务 器 应 用 程序 来 说 ,多 核 处 理 
器 比 单 核 的 宽 流出 超标 量 处 理 器 要 好 得 多 。 

3. 多 核 处 理 器 的 性 能 对 比 

在 近年 来 推出 的 处 理 器 中 ,Tl 是 独 具 特 色 的 一 个 , 它 把 重点 放 在 了 开发 线程 级 并 行 性 ， 
而 不 是 指令 级 并 行 性 上 。 它 在 一 块 芯片 上 集成 了 8 个 处 理 器 核 , 以 期 对 于 服务 器 应 用 程序 
实现 高 吞吐 率 。 与 之 不 同 , 双 核 的 Power 5 .Opteron Pentium D 则 采用 多 流出 和 多 核 技术 。 
开发 大 量 ILP 并 行 性 需要 用 复杂 得 多 的 处 理 器 。 表 10. 8 列 出 了 这 些 多 核 处 理 器 芯片 的 特 
征 和 属性 。 


表 10.8 4 种 多 核 处 理 器 的 特征 和 属性 


特征 Sun Tl AMD Opteron | Intel Pentium D | IBM Power 5 

核 8 2 2 2 

每 个 核 每 时 钟 周期 发 射 的 指令 | 1 3 3 4 

多 线程 Fine-grained | No SMT SMT 

Cache 16/8 64/64 12k uops/16 64/32 

一 级 L/D in KB per core 3MB shared | 1MB/core 1MB/core 二 级 : 1. 9MB shared 
二 级 Per core/shared 三 级 : 36MB 


三 级 (off-chip) 
存储 器 带宽 峰值 


DDR DEA 34. 4GB/s 8.6GB/s 4.3GB/s 17.2GB/s 
MIPS 峰值 9600 7200 9600 7600 
FLOPS 1200 4800(w. SSE) | 6400(w. SSE) 7600 

时 钟 频率 /GHz 1.2 2.4 识 记 1.9 

晶体 管 数 量 / 百 万 300 233 230 276 
晶片 面积 /mm 379 199 206 389 


电源 功率 /W 79 110 130 125 
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除了 重点 开发 ILP 还 是 TLP 的 区 别 外 ,这 些 多 核 处 理 器 还 有 一 些 根 本 的 不 同 ,包括 以 下 几 点 。 

(1) 它们 在 对 浮 点 运算 提供 的 支持 以 及 浮 点 运算 的 性 能 上 有 很 大 的 不 同 。Power 5 主 
要 强调 浮 点 运算 的 性 能 ,Opteron 和 Pentium 也 为 浮 点 运算 分 配 了 大 量 的 资源 ,它们 都 包含 
有 大 量 的 浮 点 运算 硬件 。 而 Tl 则 几乎 忽略 了 这 个 方面 。 它 们 的 侧重 点 是 不 同 的 。 因 此 ， 
用 只 包含 整数 运算 的 测试 程序 来 比较 这 几 个 处 理 器 的 性 能 是 不 合理 的 。 同 样 地 ,用 只 包含 
浮 点 运算 的 测试 程序 对 Tl 来 说 也 是 不 合理 的 。 

(2) 它们 的 多 处 理 器 扩展 能 力 不 同 ,这 对 存储 器 的 设计 以 及 外 部 接口 的 使 用 有 很 大 的 
影响 。Power 5 的 可 扩展 性 是 最 好 的 ,Pentium 和 Opteron 也 对 多 处 理 器 扩展 提供 了 一 定 的 
支持 ,但 T1 不 支持 扩展 成 更 大 的 系统 。 

(3) 所 用 的 实现 技术 差别 很 大 ,难以 对 它们 的 晶片 大 小 和 功 耗 进行 比较 。 

(4) 对 存储 器 系统 及 其 带宽 的 要 求 不 同 。 对 于 像 TPC-C 这 类 Cache 不 命中 率 高 的 测 
试 程序 来 说 , 访 存 带宽 高 的 处 理 器 占有 很 大 的 优势 。 

尽管 如 此 ,对 它们 的 性 能 进行 量化 分 析 和 比较 还 是 很 有 必要 的 。 图 10. 23 给 出 了 以 
SPECRate、SPECJBB2005、SPECWeb05 以 及 类 TPC-C 测试 基准 程序 为 负载 时 ,上 述 4 种 
多 核 处 理 器 的 性 能 。 图 中 所 有 的 数据 都 对 Pentium D 的 数据 进行 了 归 一 化 处 理 , 即 


Pentium D 的 值 都 是 1。 
国 Power 5+ 
加 Opteron 
国 SunTI1 
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图 10.23 在 SPEC 基准 测试 程序 和 类 TPC-C 基准 测试 程序 下 ,4 个 双核 处 理 器 的 性 能 显示 
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其 他 处 理 器 和 Pentium 


另外 ,还 有 一 些 模拟 结果 表明 ,对 于 SPECJBB05 和 类 TPC-C 测试 程序 来 说 ,Tl 的 每 瓦 
性 能 要 比 其 他 处 理 器 的 高 很 多 。 这 至 少 说 明 对 于 多 线程 程序 来 说 .在 每 瓦 性 能 方面 ,采用 
TLP 方法 比 ILP 方法 要 有 效 得 多 。 显 然 , 现 在 要 对 以 开发 TLP 为 主 的 方法 能 否 在 商业 上 
获得 成 功 做 出 结论 还 太 早 ,但 如 果 服 务 器 应 用 程序 中 有 足够 的 线程 来 使 得 T1 充分 忙碌 ,而 
且 每 线程 的 性 能 是 可 以 接受 的 ,那么 Tl 采用 的 方法 就 很 难 被 超越 。 如 果 在 服务 器 或 桌面 
环境 中 单线 程 的 性 能 仍然 很 重要 ,我 们 将 会 看 到 市 场 的 进一步 分 化 ,会 出 现 各 种 面向 完全 不 
同 环境 的 处 理 器 ,包括 追求 高 吞吐 率 的 环境 和 追求 单一 线程 高 性 能 的 环境 等 。 


10.8 多 处 理 机 实例 2 


SGI 公司 将 Cray Research 子 公 司 的 开关 网 络 技术 与 SMP 系统 的 优点 结合 起 来 ,推出 
了 Origin 2000 系列 可 扩展 服务 器 产品 。 该 系列 包括 Origin 200、Origin 2000 Deskside、 


Origin 2000 
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Origin 2000 Rack 和 Cray Origin 2000 4 种 机 器 。Origin 200 服务 器 是 入 门 级 的 系统 ,具有 
中 等 扩充 能 力 , 最 多 可 以 达到 4 个 处 理 器 。Origin 2000 Deskside 桌面 服务 器 系统 支持 的 处 
理 器 数目 最 多 为 8 个 ,Origin 2000 Rack 机 柜 服务 器 系统 支持 的 处 理 器 数目 最 多 为 16 个 ， 
Cray Origin 2000 服务 器 系统 具有 大 规模 扩充 能 力 ,支持 的 处 理 器 数目 最 多 可 达到 128 个 。 

Origin 2000 系列 服务 器 产品 不 仅 具 有 SMP 的 易 编程 和 平稳 扩充 特性 ,而 且 还 具有 
MPP 的 高 可 扩 放 性 ,应 用 非常 广泛 。 该 系列 服务 器 综合 平衡 了 高 性 能 、 可 扩 放 性 、 可 用 性 和 
兼容 性 ,能 满足 许多 应 用 的 需求 ,例如 ,可 作为 企业 、 商 业 金 融 机 构 以 及 政府 机 构 的 信息 管理 
服务 器 ,可 用 于 Web 服务 、 数 据 仓 库 、 可 视 化 服务 、 科 学 计算 、 图 像 处 理 和 仿真 等 。Origin 
2000 服务 器 系列 的 1/O 带宽 可 达 102GB/s, 系 统 传输 速率 比 同类 SMP 服务 器 快 几 十 倍 ,是 
处 理 , 存 储 和 传输 各 种 多 媒体 信息 的 理想 系统 。 

Origin 2000 的 关键 技术 包括 CrayLink 开关 网 络 技术 和 Cellular IRIX 操作 系统 。 
CrayLink 是 一 种 多 重 交 叉 开 关 互 连 技术 ,用 于 连接 处 理 器 .存储 器 .LVO 设备 等 。CrayLink 
消除 了 SMP 技术 的 主要 瓶颈 ,替代 总 线 成 为 处 理 器 节点 之 间 的 互连网 络 。CrayLink 使 
Origin 2000 系统 成 为 模块 化 系统 ,系统 规模 可 以 是 一 个 基本 的 模块 ,也 可 以 是 若干 模块 的 
互 连 , 而 且 还 可 以 方便 地 通过 增加 模块 数量 来 扩充 。Origin 2000 系统 的 可 扩 放 性 体系 结构 
最 多 可 以 扩展 至 1024 个 处 理 器 ,而 且 规模 增加 可 使 系统 性 能 也 呈 线 性 增长 ,包括 计算 能 力 、 
主 存 容量 和 带宽 .系统 互 连 带宽 .I/O 带宽 和 网 络 连接 能 力 。 

通过 CrayLink, 分 布 在 所 有 处 理 器 节点 上 的 存储 器 在 逻辑 上 形成 单一 寻 址 空间 的 共享 
存储 器 系统 ,但 对 本 地 和 远程 存储 器 访问 的 时 间 是 不 同 的 ,是 一 个 NUMA 结构 。Origin 
2000 采用 基于 目录 的 一 致 性 协议 来 实现 多 Cache 的 一 致 性 ,在 每 个 节点 上 设置 了 目录 存 
储 器 。 

Cellular IRIX 是 工业 界 最 早 投入 使 用 的 蜂窝 式 操作 系统 , 它 将 操作 系统 功能 分 布 到 各 
个 处 理 器 节点 上 ,可 以 实现 从 小 系统 到 大 系统 的 无 缝 扩展 。Cellular IRIX 把 多 个 相同 的 操 
作 系 统 核心 功能 分 别 放 到 多 个 “蜂窝 "(操作 系统 单元 ) 中 ,每 个 蜂窝 分 别管 理 服务 器 中 所 有 
处 理 器 的 一 个 子 集 。 每 个 操作 系统 单元 都 可 以 非常 有 效 地 扩展 ,单元 之 间 互 相通 信 , 为 用 
户 提供 一 种 单一 的 操作 系统 接口 。 操 作 系 统 的 这 种 蜂窝 结构 与 积木 式 的 硬件 结构 相 结 
合 , 能 够 把 故障 隔离 起 来 ,可 使 故障 局 限于 个 别 操作 系统 单元 中 ,提高 服务 器 的 可 用 性 和 
可 靠 性 。 

Cellular IRIX 是 从 SGI 的 IRIX 演变 而 来 的 ,是 以 UNIX 为 基础 的 64 位 蜂窝 式 操 作 系 
统 。Cellular IRIX 操作 系统 的 第 一 版 IRIX 6.4 用 于 Origin 2000 服务 器 ,最 低 支持 32 个 处 
理 器 ,可 以 扩充 到 128 个 处 理 器 。IRIX 6.4 采用 新 的 算法 进行 数据 管理 .调度 和 输入 输出 。 

下 面 详细 介绍 Origin 2000 系列 服务 器 的 硬件 结构 。 

1. 节点 板 

节点 板 ( 即 Origin 200 的 主板 ) 是 Origin 2000 系统 的 基本 构成 模块 ,一 个 节点 板 就 是 
Origin 2000 的 一 个 处 理 机 节点 ,其 结构 如 图 10. 24 所 示 。 节 点 板 由 以 下 几 个 部 分 组 成 。 

(1) 一 个 或 两 个 MIPS R10000 微 处 理 器 (内 含 第 一 级 Cache)。 其 主 频 是 180MHz 
或 195MHz。 

(2) 与 处 理 器 相配 的 第 二 级 Cache, 其 容量 为 1MB 或 4MB。 

(3) 主 存储 器 (本 地 ) 以 及 用 于 实现 Cache 一 致 性 的 目录 存储 器 。 
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(4) 用 于 实现 互 连 的 ASIC 芯片 , 称 为 HUB。 它 提供 了 4 个 接口 : 与 处 理 器 的 接口 ,与 
存储 器 的 接口 ,1/O 接口 ,路 由 接口 ( 接 CrayLink 互连网 络 ) 。 


L2 Cache L2 Cache 
R10000_ i™| IMB/4MB R10000 “六 “| IMB/AMB 
780MB/s 峰值 | 
780MB/s 峰 值 1 
主 存 WA BX ASIC 入 .| [30MB/s 
F HUB ASI XIO 
地 地 /控制 由 
目录 存储 器 | -目录 数据 | 780MBAs 
目录 地 址 /控制 
780MB/s | | aves 
路 由 


图 10. 24 ”Origin 2000 节点 板结 构 


HUB 的 结构 如 图 10. 25 所 示 。 它 的 4 个 端口 在 内 部 以 交叉 开关 互 连 , 通 过 发 送 消息 进 
行 通信 。 存 储 器 接口 能 双向 传送 数据 ,最 大 传输 率 为 780MB/s,I/O 和 路 由 器 接口 各 有 两 
个 半 双 工 传送 端口 ,最 大 传输 率 为 2X780MB/s, 即 1. 56GB/s。 每 个 HUB 接口 连接 两 个 先 
进 先 出 (FIFO) 缓 冲 器 ,分 别 用 于 输入 和 输出 的 缓冲 。 


处 理 器 接口 
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队列 队列 
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L | 输入 | 加 输出 ||! 
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图 10.25 HUB ASIC 结构 


HUB 以 消息 传递 方式 控制 节点 板子 系统 内 部 的 通信 ,也 控制 和 其 他 节点 板 上 的 HUB 
之 间 的 通信 。HUB 对 内 部 消息 的 格式 和 外 部 消息 的 格式 进行 转换 。 所 有 的 内 部 消息 都 由 
处 理 器 和 I/O 设备 初始 化 。 消 息 可 以 分 为 请 求 (request) 和 应 答 (reply) 两 种 ,每 个 端口 在 逻 
辑 上 形成 两 个 FIFO 队列 ,一 个 用 于 处 理 请 求 , 另 一 个 用 于 处 理应 答 。 
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2. I/O 子 系统 

Origin 2000 系统 的 IO 子 系统 由 一 组 称 为 Crosstalk (XTALK) 的 高 速 链 路 构成 。 
Crosstalk 支持 很 多 SGI 的 1/O 设备 和 第 三 方 的 IO 设备 。Crosstalk 1/O 系统 是 分 布 的 ， 
在 每 个 节点 板 上 有 一 个 IO 端口 ,可 以 被 每 个 处 理 器 访问 。I/O 操作 通过 节点 板 上 的 单 端 
口 Crosstalk 协议 的 链 路 进行 控制 ,或 者 通过 在 Crossbow(XBOW)ASIC 芯片 上 的 智能 交叉 
开关 进行 互 连 。XBOW ASIC 芯片 将 Crosstalk I/O 端口 扩充 到 8 个 端口 ,6 个 端口 用 于 
I/O ,两 个 端口 用 于 连接 到 节点 板 。 

3. 互连网 络 子 系统 

Origin 2000 的 互连网 络 子 系统 是 由 路 由 器 和 链 路 构成 的 。 每 个 路 由 器 由 一 组 交叉 开 
关 组 成 ,能 实现 多 路 无 阻塞 连接 ,所 以 不 存在 竞争 链 路 ,也 不 需要 仲裁 。 链 路 开关 的 速度 极 
高 ,每 条 双向 链 路 带宽 峰值 达到 1. 6GB/s。 若 增加 节点 板 的 数量 , 则 相应 地 要 接 入 更 多 的 路 
由 器 和 链 路 ,从 而 提高 了 互连网 络 的 总 带宽 。 

Origin 2000 的 互连网 络 CrayLink Interconnect 为 每 对 节点 提供 至 少 两 条 独立 链 路 进 
行 通信 ,这 种 结构 使 得 节点 之 间 的 通信 可 以 绕 过 不 能 运行 的 路 由 器 和 断 开 了 的 链 路 。 每 条 
链 路 按照 链 路 层 协 议 (LLP) 运 行 , 对 传送 数据 进行 CRC 校 验 ,并 可 以 重 试 任何 失败 的 传输 。 
这 使 系统 节点 之 间 的 通信 和 具有 容错 能 力 。 

路 由 器 将 节点 板 上 的 HUB 物理 地 连接 到 CrayLink Interconnect 上 。 路 由 器 的 核心 是 
实现 6 路 无 阻塞 交叉 开关 的 路 由 ASIC 芯片 ,路 由 器 的 交叉 开关 允许 6 个 路 由 端口 全 双 工 
同时 操作 ,每 个 端口 有 两 条 单 向 的 数据 通路 。 

图 10. 26 是 路 由 ASIC 芯片 的 结构 图 ,该 芯片 的 主要 功能 有 
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10.26 路 由 器 ASIC 的 结构 


多 处 理 帮 


(1) 选择 发 送 端口 和 接收 端口 的 最 高 效 连接 ,动态 地 切换 6 个 端口 的 连接 ; 

(2) 在 CrayLink Interconnect 的 链 路 层 协议 (LLP) 控 制 下 与 其 他 路 由 器 和 HUB 进行 
可 靠 通信 ; 

(3) 消息 的 包 以 虫 蚀 寻 径 方式 通过 路 由 器 以 减少 通信 时 延 ; 

(4) 对 CrayLink 信息 提供 缓存 。 

路 由 器 提供 的 峰值 通信 带宽 达到 9. 36GB/s。 

4. 不 同 的 配置 和 互 连 

如 前 所 述 , Origin 2000 可 扩展 服务 器 产品 系列 主要 包括 Origin 200、Origin 2000 
Deskside ,Origin 2000 Rack 和 Cray Origin 2000 4 种 机 器 ,它们 最 多 可 支持 的 处 理 器 数目 分 
别 为 4.16.32.64 和 128。 由 于 Origin 2000 是 模块 化 的 系统 ,节点 板 通过 路 由 器 连接 可 以 
构成 多 种 不 同 规模 的 系统 。 因 此 可 以 根据 不 同 应 用 要 求 配置 不 同 数 目的 处 理 器 。 图 10. 27 
给 出 了 处 理 器 数目 为 4.16、32、64 和 128 个 时 ,系统 的 互 连 拓扑 结构 。 图 中 ,P 表示 处 理 器 ， 
N 表示 节点 板 ,H 表示 HUB,R 表示 路 由 器 。 


(d) 64 个 处 理 器 
图 10. 27 ”Origin 2000 在 不 同 处 理 器 个 数 配 置 情况 下 的 互 连 拓扑 结构 


击 己 测 
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(e) 128 个 处 理 器 
图 10.27( 续 ) 


128 处 理 器 构成 的 Origin 2000 系统 由 4 个 立方 体 组 成 ,在 立方 体 之 间 传 送 数据 多 经 过 
了 一 级 路 由 器 。 

可 以 看 出 ,系统 的 扩展 相当 容易 .这 主要 受益 于 CrayLink 互连网 络 机 制 。2 个 节点 
板 通过 HUB 直接 连接 成 4 个 处 理 器 的 系统 ,相当 于 直接 使 用 两 台 Origin 200 服务 器 。 由 
于 路 由 器 提供 了 2 条 连接 节点 板 的 链 路 ,因此 可 由 一 个 路 由 器 和 2 个 节点 板 构成 一 个 模 
块 。 然 后 在 模块 的 基础 上 ,可 充分 利用 路 由 器 的 其 他 4 个 接口 把 系统 扩展 到 更 大 的 规 
模 。 使 用 其 中 的 2 条 链 路 ,可 以 得 到 最 多 16 个 处 理 器 的 机 器 配置 。 使 用 其 中 的 3 条 链 
路 ,可 以 得 到 一 个 cube, 实 现 最 多 32 个 处 理 器 的 配置 。 若 把 路 由 器 的 所 有 4 条 链 路 都 用 
上 , 则 得 到 由 2 个 cube 连 接 的 超 立 方 体 拓扑 结构 ,达到 最 多 64 个 处 理 器 的 配置 。 若 要 实 
现 128 个 处 理 器 的 最 大 配置 , 则 需要 使 用 专门 的 Cray Router, 将 4 个 由 32 个 处 理 器 构成 
的 cube 连接 成 hypercube 的 拓扑 结构 ,每 个 cube 顶点 上 的 路 由 器 有 一 条 链 路 连接 到 Cray 
Router 上 。 

在 Origin 中 ,节点 内 部 实现 的 是 SMP( 对 称 多 处 理 器 ) 结 构 , 由 于 只 有 两 个 处 理 器 ,所 以 
不 存在 SMP 结构 的 总 线 瓶 颈 问题 。 在 节点 之 间 实 现 的 是 大 规模 并 行 处 理 结构 ,但 又 解决 
了 共享 存储 器 问题 。 因 此 在 Origin 系统 中 ,无 论 是 访问 存储 器 的 时 间 还 是 节点 间 传 送 数据 
的 带宽 都 很 理想 。 

表 10.9 列 出 了 Origin 系统 中 CPU 访问 存储 器 的 延迟 时 间 , 假 设 CPU 的 主 频 为 
195MHz,Cache 不 命中 。 其 中 最 小 延迟 时 间 即 是 CPU 访问 本 节点 存储 器 的 时 间 , 最 大 延迟 
时 间 是 CPU 访问 距离 最 远 的 存储 器 的 时 间 。 

表 10. 10 列 出 的 是 Origin 系统 的 带宽 ,其 中 每 个 HUB 连 到 路 由 器 和 互连网 络 的 最 大 
带宽 为 1.56GB/s( 全 双 工 ,2X780MB/s) 。 
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表 10.9 Origin 系统 中 访问 存储 器 的 延迟 时 间 


系统 CPU 数 最 小 延迟 时 间 /ns 最 大 延迟 时 间 /ns 平均 延迟 时 间 /ns 

2 318 343 343 

4 318 554 441 

8 318 759 623 

16 318 759 691 

32 318 836 764 

64 318 1067 851 

128 318 1169 959 


表 10. 10 ”Origin 系统 的 带宽 


系统 处 理 器 数 带宽 (无 快速 传送 连 线 )/(GB/s) 带宽 (有 快速 传送 连 线 )/(GB/s) 
8 1.56 8 12 
16 0: 2: 6. 24 
32 6. 24 12.5 
64 12.5 
128 25 


5. 存储 层次 及 Cache 一 致 性 

Origin 系统 的 存储 器 层次 结构 可 分 为 寄存 器 、L1 Cache、L2 Cache 和 主 存储 器 ,其 中 寄 
存 器 和 L1 Cache 在 R10000 微 处 理 器 中 。 寄 存 器 的 存 取 时 间 最 短 ,L1 Cache 又 分 成 指令 
Cache 和 数据 Cache 两 部 分 ,这 是 为 了 避免 取 指令 和 存 / 取 数 据 发 生 冲 突 。L2 Cache 安装 在 
节点 卡 中 ,统一 存放 指令 和 数据 ,由 SRAM 组 成 。Origin 的 主 存储 器 地 址 是 统一 编 址 的 ,每 
个 处 理 器 通过 互连网 络 可 以 访问 系统 中 的 任 一 存储 单元 。 

当 处 理 器 第 一 次 读 取 某 一 存储 单元 数据 时 ,该 数据 在 提供 给 CPU 的 同时 也 复制 到 本 
节点 的 Cache 中 。 其 他 处 理 器 也 可 能 读 取 该 数据 ,因此 同一 数据 可 能 存放 在 几 个 节点 的 
Cache 中 ,同一 数据 在 各 个 Cache 中 的 副本 将 保持 一 致 。 这 是 通过 基于 目录 的 一 致 性 协议 
来 实现 的 。Origin 系统 的 Cache 采用 写作 废 协议 。 

在 Origin 的 每 个 节点 中 ,都 有 一 个 存储 器 和 一 个 目录 表 。 存 储 器 被 划分 为 存储 器 块 ， 
其 大 小 与 Cache 块 的 大 小 相同 。 每 个 存储 块 在 目录 表 中 有 对 应 的 一 项 ,该 目录 项 包含 的 主 
要 信息 有 两 个 : 该 存储 器 块 的 状态 信息 ;@@ 系 统 中 各 Cache 共享 该 存储 块 情况 的 位 向 量 ， 
根据 位 向 量 可 以 知道 哪些 Cache 中 有 其 副本 。 当 执行 写 存储 器 操作 时 ,根据 目录 项 的 位 向 
量 可 将 有 关节 点 中 的 Cache 数据 作废 ,从 而 实现 Cache 的 一 致 性 。 关 于 实现 多 Cache 一 致 
性 的 方法 详 见 10. 3 节 。 


t 
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习 题 10 


10.1 解释 以 下 名 词 。 
集中 式 共享 多 处 理 机 分 布 式 共享 多 处 理 机 SMP 


多 Cache 一 致 性 写作 废 协议 写 更 新 协议 
栅栏 同步 旋转 锁 同时 多 线程 
细 粒 度 多 线程 技术 粗 粒度 多 线程 技术 MPP 

DSM 


10.2 共享 存储 器 通信 与 消息 传递 通信 机 制 各 有 哪些 主要 的 优点 ? 

10.3 什么 是 多 处 理 机 的 一 致 性 ? 简 述 解决 一 致 性 的 监听 协议 和 目录 协议 的 工作 
原理 。 

10.4 简 述 写 更 新 协议 和 写作 废 协议 在 性 能 上 的 差别 。 

10.5 目前 流行 的 高 性 能 并 行 计 算 机 系统 结构 通常 可 以 分 成 哪 5 类 ? 

10.6 一 个 具有 32 台 处 理 机 的 系统 ,对 远程 存储 器 访问 时 间 是 2000ns。 除 了 通信 以 
外 ,假设 计算 中 的 访问 均 命中 局 部 存储 器 。 当 发 出 一 个 远程 请 求 时 ,本 地 处 理 机 挂 起 。 处 理 
机 的 时 钟 周期 时 间 是 10ns ,假设 指令 基本 的 CPI 为 1.0( 设 所 有 访 存 均 命中 Cache) 。 对 于 
下 述 两 种 情况 ， 

(1) 没有 远程 访问 ; 

(2) 0.5% 的 指令 需要 远程 访问 。 

试问 前 者 比 后 者 快 多 少 ? 

10.7 在 基于 总 线 的 小 型 多 处 理 器 系统 上 ,采用 写 直 达 Cache。 将 图 10. 6 与 图 10.7 
中 基于 监听 的 Cache 一 致 性 协议 改 为 写 直 达 Cache. 且 采用 不 按 写 分 配 。 夯 出 状态 转换 图 。 

10.8 在 标准 的 栅栏 同步 中 , 设 单个 处 理 器 的 通过 时 间 ( 包 括 更 新 计数 和 释放 锁 ) 为 C， 
求 N 个 处 理 器 一 起 进行 一 次 同步 所 需要 的 时 间 。 

10.9 采用 排队 锁 和 fetch-and-increment 重新 实现 栅栏 同步 ,并 将 它们 分 别 与 采用 旋 
转 锁 实 现 的 栅栏 同步 进行 性 能 比较 。 

10. 10 有 些 机 器 实现 了 专门 的 锁 广 播 一 致 性 协议 ,实现 上 可 能 使 用 不 同 的 总 线 。 假 设 
使 用 写 广 播 协议 ,重新 给 出 例 10. 3 旋转 锁 的 时 间 计算 。 


第 章 
|l 多 核 架 构 与 编程 


多 核 处 理 器 又 称 芯片 多 处 理 器 (Chip Multi Processor, CMP), 是 指 在 单个 芯片 内 集成 
两 个 或 多 个 处 理 器 。 其 中 ,芯片 内 的 每 个 处 理 器 称 做 “ 核 ”, 包 含 了 一 套 全 部 独立 的 处 理 器 部 
件 , 如 寄存 器 、ALU ,流水 线 硬件 .指令 Cache 和 数据 Cache 等 。 除 了 多 个 核 之 外 ,现代 多 核 
芯片 还 包含 共享 的 或 独立 的 第 二 级 (L2)Cache 甚至 第 三 级 (L3)Cache。 从 2005 年 开始 , 微 
处 理 器 进入 了 多 核 时 代 ,就 连 戏 入 式 应 用 也 出 现 了 多 核 处 理 器 。 本 章 主要 介绍 多 核 的 架构 、 
实例 以 及 基于 多 核 的 编程 技术 。 


11.1 多 核 架构 的 需求 


自从 电子 计算 机 诞生 以 来 , 微 处 理 器 系统 的 性 能 一 直 遵 循 着 摩尔 定律 ,经 历 了 稳定 的 增 
长 过 程 。 这 种 性 能 上 的 增长 主要 来 源 于 两 个 方面 : 一 是 时 钟 频率 的 提高 ;二 是 处 理 器 芯 
体系 结构 的 改进 。 其 中 ,体系 结构 的 改进 主要 体现 在 并 行 度 的 不 断 增加 方面 。 但 在 单 核 处 
理 器 系统 中 ,无 论 是 时 钟 频 率 ,还 是 并 行 度 都 已 接近 了 极限 ,很 难 再 进一步 提高 了 ,这 时 就 需 
要 采用 更 为 先进 的 多 核 技 术 。 

多 核 技术 的 好 处 非常 明显 。 首 先 , 由 于 计算 系统 拥有 多 个 执行 内 核 , 可 以 同时 进行 并 行 
运算 ,因此 可 以 显著 提升 系统 的 计算 能 力 , 同 时 每 个 内 核 的 主 频 可 以 比 以 前 低 , 因 而 系统 的 
总 体 功 耗 增加 不 大 。 其 次 ,与 多 CPU 技术 相 比 ,多 核 处 理 器 采用 了 与 单 CPU 相同 的 硬件 
体系 结构 ,用 户 在 提升 计算 能 力 的 同时 无 需 进行 任何 硬件 上 的 改变 。 正 是 由 于 多 核 技术 的 
这 些 优 点 ,多 核 很 快 被 用 户 接受 ,并 得 以 普及 。 现 在 .90% 以 上 的 个 人 计算 机 其 处 理 器 都 是 
多 核 的 。 事 实 上 ,从 2006 年 以 来 ,在 Intel 和 AMD 两 大 处 理 器 巨头 的 大 力 推动 下 ,多 核 的 
普及 已 成 为 必然 。 然 而 ,要 真正 发 挥 多 核 的 潜能 却 并 不 容易 ,因为 针对 多 核 或 多 线程 的 软件 
开发 要 比 单 核 或 单线 程 编程 工作 艰难 得 多 。 而 今 , 随 着 多 核 的 普及 .如 何 开发 与 多 核 相 适应 
的 软件 日 益 成 为 研究 人 员 所 关注 的 热点 问题 ,而 众多 软件 供应 商 ,如 Google、Microsoft、 
Oracle, 以 及 Linux 的 软件 供应 商 等 ,都 在 积极 着 手 准备 向 多 核 时 代 迈 进 。 


11.1.1 功 耗 与 散热 问题 


随 着 芯片 密度 和 时 钟 频率 的 不 断 提 高 ,系统 的 功 耗 也 呈现 出 指数 性 增长 的 趋势 。 功 耗 
的 过 快 增长 ,一 方面 会 增加 用 户 的 使 用 成 本 , 另 一 方面 还 会 给 系统 设计 工程 师 带 来 诸如 散热 
等 诸多 难题 。CPU 的 发 热量 主要 取决 于 处 理 器 的 密度 和 时 钟 频率 这 两 个 主要 因素 ,与 两 者 
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是 正比 关系 。 在 传统 的 体系 结构 中 ,每 一 代 处 理 器 所 产生 的 热量 增加 率 都 要 大 于 时 钟 频率 
的 增加 率 。 因 此 ,在 一 些 高 端 处 理 器 的 应 用 中 ,采用 风扇 散热 的 方式 已 经 不 能 满足 系统 的 要 
求 了 ,取而代之 的 是 液体 散热 方法 ,如 水 冷 , 液 氮 等 技术 。 所 以 , 受 功率 和 散热 方法 的 限制 ， 
时 钟 频率 不 能 无 限制 地 增加 。 正 因为 如 此 ,Intel 处 理 器 的 最 高 主 频 在 达到 了 3. 8GHz 以 
后 ,就 没有 继续 再 往 上 推进 了 ,以 后 很 可 能 也 不 打算 再 研发 更 高 主 频 的 处 理 器 ,而 是 向 多 核 
方向 发 展 。 

以 往 计算 机 处 理 器 能 力 的 提升 一 直 在 摩尔 定律 的 指引 下 , 沿 着 提升 CPU 时 钟 频率 的 
这 条 道路 前 进 。 从 初期 的 几 十 兆赫 兹 到 近 几 年 IBM 的 Power 6 达到 了 4.75GHz, 设 计 人 员 
甚至 想 过 提升 到 7 一 8GHz。 但 是 ,从 2002 年 以 来 ,由 于 主 频 的 提升 所 带 来 的 散热 和 功 耗 大 
幅 增加 等 问题 ,CPU 主 频 提 升 的 困难 越 来 越 大 。 近 几 年 ,Intel 和 AMD 都 调整 了 各 自 的 研 
究 方 向 ,研究 在 同一 CPU 中 放置 多 个 执行 内 核 的 技术 。 到 2006 年 底 ,Intel 已 经 在 全 球 同 
步 推出 了 多 款 面向 服务 器 .工作 站 的 四 核 至 强 5300 处 理 器 ,AMD 也 紧 随 其 后 推出 了 自己 
的 多 核 处 理 器 。 

另 一 方面 ,控制 功率 密度 (芯片 密度 ) 也 是 一 种 有 效 地 降低 功 耗 的 方法 ,而 控制 芯片 密度 
的 一 种 主要 方法 就 是 使 用 更 大 面积 的 Cache 存储 芯片 。Cache 的 晶体 管 相对 较 小 ,功率 密 
度 也 比 逻 辑 电路 的 要 小 。 为 了 降低 系统 功 耗 ,Cache 占 整 个 芯片 面积 的 百分比 越 来 越 大 , 随 
着 芯片 内 晶体 管 密度 的 增加 ,其 面积 逐渐 超过 了 50%。 图 11. 1 显示 了 Intel 的 奔腾 工 一 TV 
中 Cache 所 占 面积 的 变化 过 程 。 
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图 11.1 Cache 面积 逐渐 增 大 ,并 超过 50% 


11.1.2 并 行 度 问 题 


处 理 器 设计 中 ,组织 的 变化 主要 集中 在 增加 指令 级 并 行 度 上 ,以 便 使 处 理 器 每 个 时 钟 能 
做 更 多 的 工作 。 按 照 时 间 的 顺序 ,这 些 变 化 主要 包括 了 流水 线 技术 、 超 标量 技术 和 同时 多 线 
程 (Simultaneous Multi Threading,SMT) 技 术 等 。 就 流水 线 技术 而 言 , 最 开始 是 3 段 流 水 
线 , 然 后 5 段 流 水 线 代 替 了 3 段 流水 线 , 再 往 后 是 更 多 的 流水 段 , 某 些 甚 至 实现 了 超过 12 个 
流水 段 。 但 是 .在 实际 的 实现 中 ,肯定 会 存在 流水 段 上 限 。 因 为 流水 段 越 多 ,人 逻辑 电路 、 互 连 
结构 以 及 控制 信号 就 越 复杂 。 就 超标 量 技术 而 言 , 超 标量 组 织 也 是 通过 增加 并 行 流水 线 的 
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个 数 来 提高 性 能 的 。 同 样 , 随 着 流水 线 个 数 的 增加 ,需要 更 复杂 的 逻辑 管理 冲突 和 调度 指令 
使 用 资源 ,因此 所 获取 的 收益 越 来 越 小 。 冲 突 和 资源 依赖 往往 会 造成 多 流水 线 不 能 充分 利 
用 ,甚至 单个 线程 就 能 让 并 行 流 水 线 饱 和 。 就 SMT 技术 而 言 , 线 程 在 一 组 流水 线 上 调度 的 复 
杂 度 也 往往 会 限制 线程 的 个 数 和 可 有 效 利 用 的 流水 线 的 个 数 ,因此 性 能 的 改进 也 是 有 限 的 。 

随 着 系统 结构 复杂 度 的 进一步 提高 ,处 理 器 芯片 的 设计 和 制造 也 会 存在 一 些 问题 。 对 
于 超 长 流水 线 、. 超 标量 流水 线 和 多 寄存 器 体 的 SMT 而 言 , 逻 辑 电路 复杂 度 的 增加 意味 着 控 
制 和 信号 传送 所 占 面积 的 增加 ,将 导致 芯片 设计 、 制 造 和 调试 难度 的 增加 。 因 此 , 受 控制 多 
辑 复杂 度 的 限制 ,流水 线 的 宽度 和 深度 都 是 有 限 的 。 因 此 ,要 想 进一步 增加 并 行 度 , 又 不 增 
加 控制 的 复杂 度 , 只 能 选择 增加 处 理 器 的 “ 核 ” 数 。 


11.1.3 应 用 软件 问题 


目前 的 绝 大 部 分 应 用 软件 ,特别 是 互联 网 应 用 软件 都 是 面向 多 用 户 的 多 线程 软件 ,这 就 
需要 计算 机 硬件 系统 在 结构 上 能 很 好 地 支持 线程 化 的 软件 ,才能 符合 Amdahl 定律 的 要 求 。 
现在 的 数据 库 管理 软件 数据 库 应 用 等 服务 器 软件 ,一 般 要 并 行 处 理 大 量 的 .相对 独立 的 事 
务 。 除 了 通用 服务 器 软件 外 ,还 有 大 量 的 应 用 是 线程 化 的 ,例如 : 

(1) 多 线程 的 本 地 应 用 。 多 线程 应 用 一 般 含有 若干 个 高 度 线程 化 的 进程 ,如 Lotus 
Domino,Siebel CRM 等 。 

(2) 多 进程 应 用 。 这 样 的 应 用 一 般 含 有 多 个 单线 程 的 进程 ,如 Oracle 数据 库 、.SAP 应 
用 软件 等 。 

(3) 多 实例 应 用 。 虽 然 一 个 应 用 包含 的 线程 不 是 很 多 ,但 要 求 很 多 应 用 实例 同时 运行 。 

(4) Java 应 用 。 线 程 是 Java 应 用 的 基本 方式 。 不 仅 语言 本 身 十 分 方便 地 支持 多 线程 应 
用 ,就 连 虚拟 机 也 是 一 个 多 线程 的 进程 ,负责 Java 应 用 的 调度 和 内 存 管 理 。 还 有 ,Java 应 用 服 
务 器 、Weblogic、IBM 的 Websphere 以 及 开源 Tomcat 应 用 服务 器 程序 等 也 都 是 多 线程 的 。 

超 线程 (Hyper Threading) 和 SMT 技术 只 能 在 一 定 程 度 上 支持 多 线程 或 多 实例 应 
本 质 上 只 是 在 一 个 执行 核 上 运行 。 当 线程 个 数 较 多 时 ， wh 
的 处 理 系统 了 。 

总 之 , 受 CPU 主 频 \ 功 耗 .散热 和 超标 量 等 技术 复杂 度 的 限制 ,以 及 多 线程 应 用 软件 需 
求 的 驱动 , 微 处 理 器 架构 发 展 到 多 核 成 为 一 种 必然 的 趋势 ;另外 ,多 核 架 构 也 是 摩尔 定律 驱 
动 的 结果 。 在 单 核 架构 下 ,摩尔 定律 已 经 接近 于 失效 ,要 想 继续 成 立 ,多 核 架 构 是 必然 的 选 

择 。 说 到 底 , 出 现 多 核 处 理 器 最 根本 的 原因 是 人 们 对 计算 能 力 永 无 止境 的 追求 。 尽 管 近 些 
年 来 ,处 理 器 从 来 没有 停止 过 前 进 的 脚步 ,但 每 一 次 性 能 的 突破 , 换 来 的 只 是 对 更 高 性 能 的 
需求 ,特别 是 在 油气 勘探 .气象 预报 .虚拟 现实 人工 智 能 等 高 度 依赖 于 计算 能 力 的 场合 ,对 
性 能 的 渴求 更 加 迫切 。 


11.2 多 核 架构 


顾名思义 ,多 核 技 术 是 指 在 一 枚 处 理 器 中 集成 两 个 或 多 个 完整 的 计算 内 核 ,从 而 提高 计 
算 能 力 的 技术 。 按 计算 内 核 的 对 等 与 否 ,多 核 架 构 又 可 以 分 为 同 构 多 核 架 构 和 异 构 多 核 架 
构 两 种 。 计 算 内 核 相同 ,地 位 对 等 的 称 为 同 构 多 核 ,反之 称 为 异 构 多 核 。 需 要 注意 的 是 ,多 
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核 架 构 与 多 处 理 器 不 同 , 多 处 理 器 指 多 个 CPU .每 个 CPU 可 以 是 单 核 或 多 核 的 。 虽 然 同 时 
使 用 多 个 CPU .但 是 从 管理 的 角度 来 看 ,它们 的 表现 就 像 一 台 单机 一 样 ,这 在 前 面 的 章节 已 
经 有 所 阐述 。 


11.2.1 多 核 的 组 织 架构 


多 核 处 理 器 的 组 织 架构 主要 包括 片上 核心 处 理 器 的 个 数 .Cache 的 级 数 .共享 Cache 的 
容量 和 内 部 互 连 结构 等 。 图 11. 2 给 出 了 多 核 系统 的 4 种 典型 的 组 织 结构 。 


CPU 内 核 1 和 CPU 内 核 m CPU 内 核 1 a CPU 内 核 m 
Ll 指令 || LI 数据 L1 指 令 || L1 数 据 LI 指令 || LI 数据 L1 指 令 || L1 数 据 
Cache Cache Cache Cache Cache Cache Cache Cache 

L2 Cache L2 Cache 
L2 Cache 
| 
主 存 主 存 IO 
(a) 专用 L1 Cache 多 核 架构 (b) 专用 L2 Cache 多 核 架构 
CPU 内 核 1 pe CPU 内 核 m CPU 内 核 1 有 CPU 内 核 m 
LI 指令 || Li 数据 LI 指令 || Li 数据 
L1 指 令 || Li 数据 L1 指 令 L1 数 据 Cache Cache Cache Cache 
Cache Cache Cache Cache ] 
L2 Cache L2 Cache 
L2 Cache 
L3 Cache 
| 
| 
主 存 Cn 主 存 UO 
(c) 共享 L2 Cache 多 核 架构 (d) 共享 L3 Cache 多 核 架构 


图 11.2 多 核 系统 的 组 织 架 构 


如 图 11. 2(a) 所 示 是 早期 多 核 处 理 器 的 一 种 组 织 架 构 ,现在 在 嵌入 式 芯片 中 仍 能 见 到 。 
在 这 种 组 织 方式 中 ,只 有 一 级 片 内 Cache, 每 个 核 带 有 自己 的 专用 LI1 Cache, 分 成 指令 
Cache 和 数据 Cache。 这 种 组 织 的 一 个 典型 实例 是 ARM11 MPCore。 

如 图 11. 2(b) 所 示 的 是 无 片 内 共享 Cache 的 组 织 结构 。 在 这 种 结构 里 , 片 内 有 足够 的 
可 用 面积 容纳 多 个 L2 Cache。 这 种 组 织 的 一 个 典型 实例 是 AMD Opteron 。 

如 图 11. 2(c) 所 示 的 架构 采用 了 和 图 11. 2(b) 类 似 的 存储 空间 分 配 ,不 同 的 是 该 处 理 器 
架构 拥有 共享 L2 Cache。Intel 的 Core Duo 处 理 器 就 是 这 种 结构 。 

最 后 , 随 着 片上 CPU 内 核 总 量 的 不 断 增 加 ,出 于 性 能 上 的 考虑 ,分 离 出 一 个 独立 的 三 
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级 Cache, 如 图 11.2(d) 所 示 ;每 个 CPU 计算 内 核 除 了 拥有 专用 的 一 、 二 级 Cache 外 ,还 共享 
L3 Cache。Intel Core i7 就 是 这 种 结构 。 

从 上 述 几 种 结构 来 看 ,使 用 片 内 Cache 是 一 种 常见 的 技术 和 改善 性 能 的 方法 。 使 用 共 
享 的 片 内 L2 Cache 相对 于 专用 Cache 而 言 有 以 下 几 个 优点 : 

(1) 共享 片 内 L2 Cache 可 以 减少 整个 系统 的 不 命中 概率 。 也 就 是 说 ,如 果 某 个 核 上 的 
一 个 线程 访问 主 存 的 某 个 位 置 ,该 位 置 对 应 的 块 会 被 装 和 共享 Cache; 如 果 其 他 核 上 的 线程 
也 访问 同一 内 存 块 , 则 数据 已 经 在 片 内 的 共享 Cache 中 了 ,这 样 就 产生 了 Cache 命中 。 

(2) 多 个 核 所 共享 的 数据 在 共享 Cache 级 上 不 需要 复制 。 

(3) 对 于 合适 的 块 替换 算法 ,分 配给 每 个 核 的 共享 Cache 量 是 动态 的 ,这 样 局 部 线程 能 
使 用 更 多 的 Cache 空间 。 

(4) 通过 共享 Cache 能 很 容易 地 实现 计算 内 核 间 的 通信 。 

(5) 使 用 共享 的 L2 Cache 将 一 致 性 问题 限制 在 Ll Cache 层次 上 ,而 且 还 具有 性 能 上 
的 优点 ,一 方面 不 同 核 上 的 线程 可 以 共享 相同 的 数据 , 另 一 方面 运行 单个 或 少量 高 性 能 线程 
时 ,相应 的 可 用 Cache 空间 将 更 大 。 

使 用 片 内 专用 L2 Cache 的 潜在 优点 是 每 个 核能 快速 地 访问 其 私有 的 L2 Cache 块 , 非 
常 适合 具有 很 强 局 部 性 的 线程 提高 性 能 。 

随 着 可 用 Cache 的 数量 和 计算 内 核 数 的 增加 ,使 用 共享 L3 Cache, 结 合共 享 或 专用 的 
L2 Cache, 其 效果 会 比 简单 地 使 用 多 个 共享 的 L2 Cache 要 好 ,性 能 会 得 到 进一步 的 提升 。 

多 核 系 统 另 一 个 重要 的 组 织 架 构 设 计 问题 是 : 每 个 计算 内 核 采 用 超标 量 架构 还 是 
SMT 架构 。 例 如 ,Intel 公司 的 Core Duo 采用 超标 量 核 ,而 Core i7 则 采用 SMT 核 。SMT 
是 一 种 在 一 个 CPU 的 时 钟 周期 内 ,能够 执行 来 自 多 个 线程 指令 的 硬件 多 线程 技术 。 因 此 ， 
一 个 4 核 SMT 系统 ,每 个 核 支持 4 个 并 发 线程 ,在 应 用 级 上 等 价 于 一 个 16 核 的 系统 。 随 着 
软件 并 行 资源 利用 能 力 的 提高 , 相 比 于 超标 量 方法 ,SMT 方法 更 具有 吸引 力 。 


11.2.2 多 核 架 构 实 例 


多 核 CPU 产品 有 很 多 ,几乎 所 有 的 厂商 都 推出 了 自己 的 多 核 产 品 。 本 节 介 绍 几 个 典 
型 的 多 核 架 构 实 例 ; Intel x86 多 核 架 构 和 面向 嵌入 式 应 用 的 ARM 多 核 架构 。 

1.Intel x86 多 核 架构 

从 2005 年 开始 ,Intel 公司 每 两 年 推出 一 款 新 的 微 架 构 , 工 艺 也 从 65nm、45nm、32nm、 
22nm 逐步 向 8nm 发 展 ,性 能 上 仍 遵循 摩尔 定律 。 这 里 介绍 两 款 分 别 代表 中 端 、 低 端 应 用 的 
多 核 CPU 。 

1) Core Duo 

2006 年 推出 的 Core Duo 是 全 球 第 一 个 低 耗 电 的 双核 处 理 器 ( 低 于 25W), 它 也 是 第 一 
款 苹果 Macintosh 电脑 所 使 用 的 Intel 处 理 器 。Core Duo 实现 了 两 个 x86 超标 量 处 理 器 ， 
共享 二 级 Cache, 如 图 11. 3 所 示 。 跟 所 有 的 多 核 系 统一 样 ,Core Duo 的 每 个 核 有 自己 的 专 
用 Ll Cache: 一 个 32KB 的 指令 Cache 和 一 个 32KB 的 数据 Cache。 

Core Duo 的 每 个 核 有 一 个 独立 的 热 控制 部 件 。 对 于 今天 的 高 密度 晶体 管 芯片 ,热管 理 
是 一 个 基本 功能 ,尤其 是 笔记 本 和 移动 系统 。Core Duo 的 热 控制 部 件 负责 管理 芯片 的 散 
热 ,在 发 热 受 限 的 条 件 下 使 得 处 理 器 的 性 能 最 高 。 另 外 ,热管 理 可 以 通过 冷却 系统 改进 人 机 
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环境 、 降 低 风 扇 噪声 。 每 个 核 可 被 定义 为 一 个 独立 的 热 区 ,每 个 热 区 的 最 高 温度 存 到 专用 寄 
存 器 中 ,由 软件 轮 询 这 些 寄 存 器 来 获得 最 高 温度 值 。 如 果 一 个 核 的 温度 超过 某 个 阔 值 ,就 由 
热 控制 部 件 降 低 该 核 的 时 钟 频率 ,从 而 减少 热量 的 产生 。 


图 11. 3 Intel Core Duo 的 结构 


Core Duo 组 成 中 的 另 一 个 关键 部 件 是 高 级 可 编程 中 断 控 制 器 (Advanced 
Programmable Interrupt Controller,APIC)。APIC 可 以 执行 许多 功能 ,包括 支持 处 理 器 间 
中 断 , 允 许 任 一 处 理 器 中 断 另 一 处 理 器 或 一 组 处 理 器 。 一 个 核 执 行 的 线程 可 以 产生 一 个 中 
断 请 求 , 该 中 断 请 求 首先 由 本 地 APIC 接收 ,再 传送 给 其 他 核 的 APIC, 然 后 中 断 对 应 的 核 。 
功率 管理 逻辑 负责 降低 功 耗 ,从 而 增加 移动 平台 电池 的 寿命 。 在 实际 中 ,功率 管理 逻辑 监测 
热量 状况 和 CPU 活动 ,适当 地 调整 电压 和 功 耗 。 它 包含 一 个 高 级 功率 门 控 部 件 , 可 以 进行 
超 细 粒度 的 逻辑 控制 , 仅 当 需要 的 时 候 才 启动 相应 的 CPU 逻辑 子 系统 。 

Core Duo 芯片 包含 一 个 共享 的 .2MB 的 L2 Cache。Cache 逻辑 可 以 根据 当前 核 的 需求 
动态 地 分 配 Cache 空间 ,因此 一 个 核 最 多 的 时 候 可 以 获得 全 部 的 L2 Cache 空间 。L2 Cache 
所 包含 的 逻辑 支持 MESI 协议 ,以 维护 其 上 L1 Cache 之 间 的 数据 一 致 性 。Core Duo 对 
MESI 协议 进行 了 扩展 ,也 支持 对 称 多 处 理 器 结构 。 当 一 个 核 请 求 的 数据 不 在 本 地 CPU 内 
时 ,可 通过 外 部 总 线 上 的 代理 访问 其 他 CPU。 总 线 接口 连接 外 部 总 线 , 即 前 端 总 线 。 前 端 
总 线 连接 主 存 .IVO 控制 器 和 其 他 处 理 器 芯片 。 

2) Intel Core i7 

Intel Core i7 是 Intel 于 2008 年 11 月 推出 的 ,实现 了 4 个 x86 SMT 计算 核 ,每 个 计算 
核 带 一 个 专用 的 L2 Cache 一 个 共享 的 L3 Cache, 如 图 11.4 所 示 。 在 Core i7 中 ,每 个 核 拥 
有 自己 的 专用 L2 Cache,4 个 核 共享 一 个 8MB 的 L3 Cache。 为 了 使 Cache 更 加 高 效 地 工 
作 , 使 用 了 预 取 机 制 。 在 这 种 机 制 中 ,硬件 检测 内 存 的 访问 模式 ,推测 马上 要 用 到 的 数据 ,并 
提前 装 入 Cache 中 。 

Core i7 芯片 支持 两 种 片 外 通信 方式 : 通过 “DDR3 主 存 控 制 器 ”的 通信 和 通过 “高 速 路 
径 互 连 ? 的 通信 。Core i7 将 DDR3 主 存 控 制 器 集成 到 了 片 内 ,去 掉 了 前 端 总 线 。 这 个 接口 
支持 三 个 信道 ,每 个 信道 为 8 字 节 宽 ,总 宽度 为 192 位 ,总 数据 传输 率 可 达 32GB/s。 高 速 路 
径 互 连 (Quick Path Interconnect,QPI) 是 一 个 电气 互 连 规范 ,基于 一 致 性 协议 和 点 对 点 链 路 ， 
用 于 Intel 处 理 器 和 芯片 组 互 连 。 通 过 其 互 连 的 处 理 器 之 间 能 高 速 通信 ,每 秒 可 进行 6. 4G 次 
传送 。 每 次 传送 16 位 ,达到 12. 8GB/s; 由 于 QPI 链 路 是 双向 的 , 故 总 带宽 可 达到 25. 6GB/s。 

2. ARM11 MPCore 架构 

ARMI11 MPCore 是 基于 ARM11 处 理 器 系列 的 多 核 产品 ,最 多 可 配置 4 个 处 理 器 ,每 个 处 
理 器 带 有 私有 的 L1 指令 Cache 和 Ll 数据 Cache。 表 11.1 列 出 了 ARM11 系统 的 配置 选项 。 
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图 11.4 Intel Core i7 结构 


表 11.1 ARMI11 MPCore 配置 选项 


特 征 选项 范围 默认 值 

处 理 器 1~4 4 

每 个 处 理 器 的 指令 Cache 大 小 16KB.、32KB 或 64KB 32KB 

每 个 处 理 器 的 数据 Cache 大 小 16KB、32KB 或 64KB 32KB 

主 端口 1 个 或 2 个 2 

中 断 总 线 的 宽度 0 一 224 按 32 引 脚 增加 32 个 引 脚 

ARMI11 MPCore 处 理 器 如 图 11. 5 所 示 ,系统 的 主要 部 件 如 下 。 
I | [mM || 


由 | 


[一 中 断 分 配器 


站 
品 
定时 器 | 本 地 定时 器 | 本 地 定时 器 | 本 地 定时 器 || ”本 地 | 

看 门 狗 | CPU 接口 | | [看 门 狗 |]LCPU 接 口 | | | [看 门 狗 | CPU 接口 | | [看 站 狗 |LCPU 接 吕 
IRQ IRQ IRQ IRQ |] 
| 11 11 11 | 

CPU/VFP CPU/VFP CPU/VFP | CPU/VFP 
LI 存储 器 L1 存 储 器 Li 存储 器 | LI1 存 储 器 国 
LT TT TT TTT 
监听 控制 部 件 (SCU) 了 桥 
APMI1 MPCore 全 人 


说 明 : IRQ 一 一 中 断 请 求 


图 11.5 ARM11 MPCore 处 理 器 
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(1) 中 断 分 配器 : 进行 中 断 检测 和 中 断 优先 级 管理 , 按 需 将 中 断 请 求 传递 给 一 个 或 多 
个 CPU。 提 供 一 种 处 理 器 间 的 通信 方法 ,使 得 一 个 CPU 上 线程 可 以 驱动 另 一 个 CPU 上 的 
线程 ,支持 单 播 , 多 播 和 广播 通信 方式 。 

(2) 定时 器 : 每 个 CPU 都 有 自己 的 、 能 产生 中 断 的 私有 定时 器 。 

(3) CPU 接口 : 处 理 中 断 确认 中 断 屏蔽 和 中 断 完 成 确认 。 

(4) CPU: 单个 的 ARM11 处 理 器 。 每 个 CPU 被 认为 是 AMP11 CPU 核 。 

(5) 向 量 浮 点 部 件 (VFP) : 用 硬件 实现 浮 点 运算 的 协 处 理 器 。 

(6) L1 Cache: 每 个 CPU 有 自己 的 专用 LI1 数据 Cache 和 Ll 指令 Cache。 

(7) 监听 控制 部 件 : 负责 维护 L1 数据 Cache 之 间 的 一 致 性 。 


11.3 基于 多 核 的 并 行程 序 设 计 


毫 无 疑问 ,多 核 给 我 们 提供 了 更 经 济 的 计算 能 力 。 但 是 ,能 否 对 这 种 能 力 善 加 利用 ,还 
要 取决 于 软件 。 软 硬件 在 这 里 的 关系 就 如 同 路 与 车 ,如 果 把 多 核 平台 看 成 高 速 公路 的 话 , 软 
件 就 可 以 看 成 高 速 公路 上 的 汽车 ,高 速 公路 只 是 提供 了 一 个 基础 ,而 到 底 能 发 挥 多 大 的 运输 
能 力 , 还 要 看 汽车 能 跑 多 快 。 更 重要 的 一 点 是 ,如 果 不 针对 多 核 进 行 软件 开发 ,不 仅 多核 提 
供 的 强大 计算 能 力 得 不 到 利用 ,而 且 还 有 可 能 不 如 单 核 CPU 好 用 。 因 为 采用 多 核 的 CPU 
其 每 个 内 核 的 主 频 比 主流 的 单 核 CPU 通常 要 低 一 些 , 如 果 你 的 程序 只 能 发 挥 出 一 个 内 核 
效用 的 话 ,自然 不 如 单 核 CPU 好 用 。 未 来 多 核 芯片 将 无 处 不 在 ,针对 多 核 的 软件 开发 将 是 
摆 在 软件 产业 界面 前 的 一 大 挑战 。 有 专家 甚至 预言 ,针对 多 核 和 多 线程 的 软件 开发 将 是 未 
来 十 年 软件 开发 的 主要 挑战 , 即 基于 多 核 的 并 行程 序 设计 。 

多 核 处 理 器 的 基本 目的 是 通过 多 个 任务 的 并 行 执行 提高 应 用 程序 的 性 能 。 这 就 需要 将 
一 个 应 用 程序 进行 任务 划分 : 尽量 分 解 为 多 个 相对 独立 的 任务 ,每 个 任务 实现 为 一 个 线程 ， 
从 而 将 多 个 任务 分 布 到 多 个 计算 核 上 执行 .以 减少 程序 的 执行 时 间 。 本 节 首 先 介绍 最 重要 
的 两 种 并 行 编程 模型 : 数据 并 行 编程 模型 和 消息 传递 模型 ,然后 介绍 并 行 编程 语言 ,最 后 介 
绍 实际 多 核 上 的 编程 与 开发 。 


11.3.1 并 行 编程 模型 


目前 几 种 最 重要 的 并 行 编程 模型 是 数据 并 行 (Data Parallel)、 消 息 传 递 (Message 
Passing) 和 共享 变量 (Shared Variable) 。 数 据 并 行 模型 的 编程 级 别 比 较 高 ,编程 相对 简单 ， 
但 它 仅 适用 于 数据 并 行 问题 ;消息 传递 模型 的 编程 级 别 相对 较 低 ,但 消息 传递 编程 模型 可 以 
有 更 广泛 的 应 用 范围 ;共享 变量 则 采用 多 线程 的 方式 ,非常 适合 共享 内 存 多 处 理 系 统 和 多 核 
处 理 器 体系 结构 。 

数据 并 行 即 将 相同 的 操作 同时 作用 于 不 同 的 数据 ,因此 适合 在 SIMD (Single 
Instruction Multiple Data) 及 SPMD(Single Program Multiple Data) 的 并 行 计 算 机 上 运行 。 
数据 并 行 编程 模型 是 一 种 较 高 层次 上 的 模型 , 它 提 供给 编程 者 一 个 全 局 的 地 址 空间 ,一 般 这 
种 形式 的 语言 本 身 就 提供 并 行 执行 的 语义 ,因此 对 于 编程 者 来 说 ,只 需要 简单 地 指明 执行 什 
么 样 的 并 行 操作 和 并 行 操作 的 对 象 ,就 实现 了 数据 并 行 的 编程 。 数 据 并 行 的 表达 是 相对 简 
单 和 简洁 的 , 它 不 需要 编程 者 关心 并 行 机 是 如 何 对 该 操作 进行 并 行 执行 的 。 数 据 并 行 编程 
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模型 虽然 可 以 解决 一 大 类 科学 与 工程 计算 问题 ,但 是 对 于 非 数据 并 行 类 的 问题 ,如 果 通 过 数 
据 并 行 的 方式 来 解决 ,一 般 难 以 取得 较 高 的 效率 。 

消息 传递 即 各 个 并 行 执行 的 部 分 之 间 通 过 消息 传递 来 交换 信息 ,协调 步伐 ,控制 执行 。 
消息 传递 一 般 是 面向 分 布 式 内 存 的 ,但 是 它 也 适用 于 共享 内 存 的 并 行 机 。 消 息 传递 为 编程 
者 提供 了 更 灵活 的 控制 手段 和 表达 并 行 的 方法 ,一 些 用 数据 并 行 方法 很 难 表达 的 并 行 算法 ， 
都 可 以 用 消息 传递 模型 来 实现 ,灵活 性 和 控制 手段 的 多 样 化 ,是 消息 传递 并 行程 序 能 提供 高 
的 执行 效率 的 重要 原因 。 消 息 传递 模型 一 方面 为 编程 者 提供 了 灵活 性 , 另 一 方面 , 它 也 将 各 
个 并 行 执行 部 分 之 间 复 杂 的 信息 交换 和 协调 ,控制 的 任务 交 给 了 编程 者 ,这 在 一 定 程度 上 增 
加 了 编程 者 的 负担 ,这 也 是 消息 传递 编程 模型 编程 级 别 低 的 主要 原因 。 虽 然 如 此 ,消息 传递 
的 基本 通信 模式 是 简单 和 清楚 的 ,学 习 和 掌握 这 些 部 分 并 不 困难 ,因此 目前 大 量 的 并 行程 序 
设计 仍然 是 消息 传递 并 行 编程 模式 。 

数据 并 行 和 消息 传递 的 对 比 见 表 11. 2。 


表 11.2 数据 并 行 和 消息 传递 编程 模式 的 对 比 


对 比 内 容 数据 并 行 消息 传递 
编程 级 别 高 低 
适用 的 并 行 机 类 型 SIMD/SPMD SIMD/MIMD/SPMD/ MPMD 
执行 效率 效率 依赖 于 编译 器 高 
地 址 空间 单一 多 个 
存储 类 型 共享 内 存 分 布 式 或 共享 内 存 
通信 的 实现 编译 器 负责 程序 员 负 责 
问题 类 数据 并 行 类 问题 数据 并 行 任务 并 行 
目前 状况 缺乏 高 效 的 编译 器 支持 使 用 广泛 


共享 变量 则 是 采用 程序 中 的 共享 变量 来 进行 信息 交换 ,协调 同步 以 及 控制 执行 的 。 共 
享 变量 的 方式 非常 适合 多 核 系统 下 的 应 用 编程 ,著名 的 OpenMP 多 线程 并 行 编程 语言 就 采 
用 了 这 种 方式 ,本 章 后 面 将 重点 以 OpenMP 为 例 介绍 这 种 多 核 下 的 编程 模型 。 


11.3.2 并 行 语言 


并 行程 序 是 通过 并 行 语言 来 表达 的 ,并行 语言 的 产生 主要 有 三 种 方式 : 

(1) 设计 全 新 的 并 行 语言 ; 

(2) 扩展 原来 的 串 行 语言 的 语法 成 分 使 它 支 持 并 行 特 征 ; 

(3) 不 改变 串 行 语言 仅 为 串 行 语言 提供 可 调用 的 并 行 库 。 

设计 一 种 全 新 的 并 行 语言 的 优点 是 可 以 完全 摆脱 串 行 语言 的 束缚 ,从 语言 成 分 上 直接 
支持 并 行 , 这 样 就 可 以 使 并 行程 序 的 书写 更 方便 ,更 自然 ,相应 的 并 行程 序 也 更 容易 在 并 行 
机 上 实现 。 但 是 ,由 于 并 行 计算 至 今 还 没有 像 串 行 计算 那样 统一 的 汉 。 诺 依 曼 模型 可 供 遵 
循 ,因此 并 行 机 、 并 行 模型 .并 行 算法 和 并 行 语言 的 设计 和 开发 千差万别 ,没有 一 个 统一 的 标 
准 , 虽 然 有 多 种 多 样 全 新 的 并 行 语言 出 现 . 但 至 今 还 没有 任何 一 种 新 出 现 的 并 行 语言 成 为 普 
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饥 接 受 的 标准 ,设计 全 新 的 并 行 语言 ,实现 起 来 难度 和 工作 量 都 很 大 ,但 各 种 各 样 的 并 行 语 
言 的 出 现实 践 和 研究 无 疑 都 为 并 行 语言 和 并 行 计 算 的 发 展 做 出 了 贡献 。 

一 种 重要 的 对 串 行 语言 的 扩充 方式 就 是 标注 ,即将 对 串 行 语言 的 并 行 扩 充 作 为 原来 串 
行 语言 的 注释 ,对 于 这 样 的 并 行程 序 , 若 用 原来 的 串 行 编译 器 来 编译 ,标注 的 并 行 扩充 部 分 
将 不 起 作用 , 仍 将 该 程序 作为 一 般 的 串 行 程序 处 理 , 若 使 用 扩充 后 的 并 行 编译 器 来 编译 , 则 
该 并 行 编译 器 就 会 根据 标注 的 要 求 , 将 原来 串 行 执行 的 部 分 转化 为 并 行 执 行 。 对 串 行 语言 
的 并 行 扩充 ,相对 于 设计 全 新 的 并 行 语言 ,显然 难度 有 所 降低 ,但 需要 重新 开发 编译 器 ,使 它 
能 够 支持 扩充 的 并 行 部 分 。 一 般 地 ,这 种 新 的 编译 器 往往 和 运行 时 支持 的 并 行 库 相 结合 。 
仅仅 提供 并 行 库 ,是 一 种 对 原来 的 串 行 程序 设计 改动 最 小 的 并 行 化 方法 。 这 样 ,原来 的 串 行 
编译 器 也 能 够 使 用 ,不 需要 任何 修改 ,编程 者 只 需要 在 原来 的 串 行程 序 中 加 入 对 并 行 库 的 调 
用 ,就 可 以 实现 并 行程 序 设 计 。 对 于 这 三 种 并 行 语言 的 实现 方法 目前 最 常 使 用 的 是 第 二 种 
和 第 三 种 方法 ,特别 是 第 三 种 方法 。 


11.3.3 并 行 算法 


并 行 算法 是 给 定 并 行 模型 的 一 种 具体 、 明 确 的 解决 方法 和 步骤 。 按 照 不 同 的 划分 方法 ， 
并 行 算法 有 多 种 不 同 的 分 类 。 

根据 运算 的 基本 对 象 的 不 同 ,可 以 将 并 行 算法 分 为 数值 并 行 算法 (数值 计算 ) 和 非 数 值 
并 行 算法 (符号 计算 )。 当 然 ,这 两 种 算法 也 不 是 截然 分 开 的 ,例如 在 数值 计算 的 过 程 中 会 用 
到 查找 、 匹 配 等 非 数 值 计 算 的 成 分 , 非 数值 计算 中 一 般 也 会 用 到 数值 计算 的 方法 。 划 分 为 什 
么 类 型 的 算法 主要 取决 于 主要 的 计算 量 和 宏观 的 计算 方法 。 

根据 进程 之 间 的 依赖 关系 可 以 分 为 同步 并 行 算法 (步调 一 致 )、 异 步 并 行 算法 (步调 、 进 
展 互 不 相同 ) 和 纯 并 行 算法 (各 部 分 之 间 没 有 关系 )。 对 于 同步 并 行 算法 ,任务 的 各 个 部 分 是 
同步 向 前 推进 的 ,有 一 个 全 局 的 时 钟 (不 一 定 是 物理 的 ) 来 控制 各 部 分 的 步伐 ;而 对 于 异步 并 
行 算法 ,各 部 分 的 步伐 是 互 不 相同 的 ,它们 根据 计算 过 程 的 不 同 阶段 决定 等 待 .继续 或 终止 ; 
纯 并 行 算法 是 最 理想 的 情况 ,各 部 分 之 间 可 以 尽 可 能 快 地 向 前 推进 ,不 需要 任何 同步 或 等 
待 ,但 是 一 般 这 样 的 问题 是 少见 的 。 

根据 并 行 计 算 任 务 的 大 小 ,还 可 以 分 为 粗 粒 度 并 行 算 法 (一 个 并 行 任务 包含 较 长 的 程序 
段 和 较 大 的 计算 量 ) 、 细 粒度 并 行 算法 (一 个 并 行 任务 包 含 较 短 的 程序 段 和 较 小 的 计算 量 ) 以 
及 介 于 两 者 之 间 的 中 粒度 并 行 算法 。 一 般 而 言 ,并行 的 粒度 越 小 ,就 越 有 可 能 开发 更 多 的 并 
行 性 ,提高 并 行 度 ,这 是 有 利 的 方面 ,但 是 另 一 个 不 利 的 方面 就 是 并 行 的 粒度 越 小 ,通信 次 数 
和 通信 和 量 就 相对 增多 ,这 样 就 会 增加 额外 的 开销 ,因此 合适 的 并 行 粒 度 需要 根据 计算 量 、 通 
信 量 ,计算 速度 .通信 速度 进行 综合 平衡 .这样 才 能 够 取得 高 效率 。 

对 于 相同 的 并 行 计算 模型 .可 以 有 多 种 不 同 的 并 行 算法 来 描述 和 刻画 。 由 于 并 行 算法 
设计 的 不 同 , 可 能 对 程序 的 执行 效率 有 很 大 的 影响 ,不 同 的 算法 有 几 倍 、 几 十 倍 甚至 上 百倍 
的 性 能 差异 是 完全 正常 的 。 并 行 算法 基本 上 是 随 着 并 行 机 的 发 展 而 发 展 的 。 从 本 质 上 说 ， 
不 同 的 并 行 算法 是 根据 问题 类 别 的 不 同和 并 行 机 体系 结构 的 特点 产生 出 来 的 ,一 个 好 的 并 
行 算法 既 要 能 很 好 地 匹配 并 行 计算 机 硬件 体系 结构 的 特点 ,又 要 能 反映 问题 内 在 的 并 行 性 。 
SIMD 结构 计算 机 一 般 适合 同步 并 行 算法 ,而 MIMD 并 行 计算 机 则 适合 异步 并 行 算法 。 

在 并 行 计算 中 ,由 于 并 行 算法 可 以 对 性 能 产生 重大 的 影响 ,因此 受到 了 人 们 的 广泛 重 


多 松 架 芍 与 编程 


视 ,并 行 算法 也 成 为 一 个 专门 的 十 分 活跃 的 研究 领域 。 并 行 算法 设计 也 是 并 行程 序 设计 的 
前 提 , 没 有 好 的 并 行 算法 ,就 没有 好 的 并 行程 序 , 因 此 在 并 行程 序 设 计 之 前 ,必须 首先 考虑 好 
并 行 算法 。 该 算法 要 能 够 将 并 行 机 和 实际 问题 很 好 地 结合 起 来 , 既 能 够 充分 利用 并 行 机 体 
系 结构 的 特点 ,又 能 够 揭示 问题 内 在 的 并 行 性 。 


11.4 ”多核 编程 实例 


目前 ,程序 开发 人 员 开 发 实际 的 并 行程 序 主 要 方法 是 串 行 语言 加 并 行 库 的 扩展 ,也 就 是 
增加 一 个 库 来 帮助 进行 消息 传递 和 并 行 , 但 其 程序 开发 效率 很 低 ,难度 也 比较 大 。 其 中 比较 
典型 的 方法 有 两 种 : 共享 存储 和 消息 传递 。 共 享 存储 的 方法 主要 是 采用 多 线程 的 方式 ,其 
主要 程序 开发 环境 就 是 已 经 成 为 事实 工业 标准 的 OpenMP, 目 前 主要 是 商业 编译 器 提供 对 
该 语言 的 支持 。 而 消息 传递 开发 则 包括 MPI 和 PVM 等 开源 开发 环境 ,可 以 免费 下 载 。 其 
中 MPI 最 常用 最 流行 的 两 个 实现 是 MPICH 和 LAM/MPI。 此 外 ,由 于 现 有 机 器 体系 结构 
层次 非常 复杂 ,还 可 以 把 上 面 几 类 并 行 和 向 量 并 行 混合 使 用 ,充分 挖掘 机 器 的 性 能 潜力 , 通 
常 称 之 为 混合 并 行 。 本 小 节 重 点 介绍 基于 OpenMP 的 多 核 编程 环境 。 

OpenMP(Open Multi-Processing) 是 一 套 支 持 跨 平台 共享 内 存 方式 的 多 线程 并 发 的 编 
程 API, 使 用 C,C++ 和 FORTRAN 语言 .可 以 在 大 多 数 的 处 理 器 体系 和 操作 系统 中 运行 ， 
包括 Solaris, AIX, HP-UX,GNU/Linux, Mac OS X 和 Microsoft Windows 等 ,还 包括 一 
套 编译 器 指令 , 库 和 一 些 能 够 影响 运行 行为 的 环境 变量 。OpenMP 采用 可 移植 的 .可 扩展 
的 模型 ,为 程序 员 提 供 了 一 个 简单 而 灵活 的 开发 平台 ,包括 从 标准 桌面 电脑 到 超级 计算 机 的 
并 行 应 用 程序 接口 。OpenMP 提供 了 对 并 行 算法 的 高 层 的 抽象 描述 ,程序 员 通过 在 源 代码 
中 加 入 专用 的 pragma 来 指明 自己 的 意图 ,由 此 编译 器 可 以 自动 将 程序 进行 并 行 化 ,并 在 必 
要 之 处 加 入 同步 互 斥 以 及 通信 。 

以 一 个 简单 的 OpenMP 程序 为 例 。 


int main (int argc,char* argv[]) 
1 
#pragma amp Parallel for 

for (int i=0;i <10;i++) 

4 

Printf ("i= $d/n",i); 

} 

retum 0; 
} 


这 个 程序 执行 后 可 以 打印 出 以 下 结果 : 


到 0 
这 5 
过 1 
6 
到 2 


7 
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可 见 for 循环 语句 中 的 内 容 被 并 行 执行 了 (每 次 运行 的 打印 结果 可 能 会 有 区 别 ) 。 
井 pragma omp parallel for 这 条 语句 是 用 来 指定 后 面 的 for 循环 语句 变 成 并 行 执行 的 ， 


当然 for 循环 里 的 内 容 必须 满足 可 以 并 行 执行 的 条 件 , 即 每 次 循环 互 不 相干 ,后 一 次 循环 不 


依赖 于 前 面 的 循环 。 
下 面 再 通过 一 个 简单 的 示例 程序 来 说 明 并 行 执 行 后 效率 的 提升 。 
void test() 
{ 
int a=0; 


日 


clock t tl= clock(); 
for (int i=0;i < 100000000;i++) 
{ 
eitl; 
} 
clock t t2= clock(); 
Printf ("Time= %d/n",t2- t1); 
} 
int main (int argc,char * argv[]) 
{ 
clock t tl= clock(); 
#pragma amp Parallel for 
for (int j=0;j <2;j++){ 
test (); 
3 
clock t t2= clock(); 
Printf ("Total time= $d/n",t2- t1); 


test (); 
retum 0; 
} 
在 test() 函 数 中 ,执行 了 1 亿 次 循环 ,主要 用 来 执行 一 个 长 时 间 的 操作 。 在 main() 函数 
有 , 先 在 一 个 循环 里 调用 test() 函 数 ,只 循环 两 次 。 在 一 台 典 型 的 双核 CPU 上 可 以 得 到 以 


下 的 运行 结果 : 


Time= 298 
Time= 298 
Total time= 298 
Time= 298 


可 以 看 到 在 for 循环 里 的 两 次 test() 函 数 调 用 都 花费 了 298ms. 但 是 打印 出 的 总 时 间 却 


只 花费 了 298ms, 后 面 那个 单独 执行 的 test() 函数 花费 的 时 间 也 是 298ms, 可 见 使 用 并 行 计 
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算 后 效率 提高 了 整整 一 信 。 a 


ll 


习 题 11 


解释 下 列 术语 。 


CMP.SMT、MPI.OpenMP.\SPMD, Hyper Threading 


ll2 


3 
4 
5 
11.6 
7 
8 
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并 行 编程 模型 有 哪 几 种 ?各 自 的 特点 是 什么 ? 

简 述 多 核 架构 与 多 处 理 器 有 什么 不 同 。 

多 核 时 代 的 主要 驱动 力 有 哪些 ? 

画 出 专用 L1 Cache 多 核 架 构图 ,并 叙述 其 特点 。 

画 出 专用 L2 Cache 多 核 架 构图 ,并 叙述 其 特点 。 

画 出 共享 L2 Cache 多 核 架 构图 ,并 叙述 其 特点 。 
画 出 共享 L3 Cache 多 核 架 构图 ,并 叙述 其 特点 。 

上 机 编写 调试 一 个 能 求解 Pi 的 OpenMP 并 行程 序 。 


11.10 上 机 编写 调试 一 个 能 求解 矩阵 相 乘 的 OpenMP 并 行程 序 。 


第 章 
之 机 群 系统 


内 容 提要 

(1) 机 群 的 基本 结构 ; 

(2) 机 群 的 特点 ; 

(3) 机 群 的 分 类 : 

(4) 典型 的 机 群 系统 。 

机 群 (cluster) 系 统 起 源 于 20 世纪 90 年 代 中 期 , 它 是 由 多 台 同 构 或 异 构 的 独立 计算 机 
通过 高 性 能 网 络 连接 在 一 起 而 构成 的 高 性 能 并 行 计算 机 系统 。 构 成 机 群 的 计算 机 都 拥有 自 
己 的 存储 器 、1/O 设备 和 操作 系统 ,它们 在 机 群 操作 系统 的 控制 下 协同 完成 特定 的 并 行 计算 
任务 。 对 用 户 和 应 用 来 说 ,机 群 就 是 一 个 单一 的 系统 ,可 以 提供 低 价 高 效 的 高 性 能 环境 和 快 
速 可 靠 的 服务 。 

目前 流行 的 高 性 能 并 行 计 算 机 系统 结构 通常 可 以 分 成 5 类 ,机 群 就 是 其 中 之 一 ,另外 4 
类 分 别 是 并 行 向 量 处 理 机 (PVP) 、 对 称 多 处 理 机 (SMP) 大 规模 并 行 处 理 机 (MPP) 和 分 布 
共享 存储 (DSM) 多 处 理 机 。 机 群 结构 凭借 低廉 的 价格 \ 极 强 的 灵活 性 和 可 扩 放 性 ,成 为 近 
年 来 发 展 势头 最 强劲 的 一 种 结构 。 表 12. 1 列 出 了 1997 年 6 月 至 2008 年 6 月 共 23 期 全 球 
高 性 能 计算 机 500 强 (Top500) 排 名 中 Cluster 系统 的 数量 ,从 中 可 以 清楚 地 看 出 其 迅猛 的 
发 展 趋势 。Top500 排行 榜 起 源 于 1993 年 ,尽管 直到 1997 年 6 月 才 首次 有 机 群 结构 的 计算 
机 进入 该 排名 ,但 此 后 和 人选 的 机 群 系统 的 数量 逐年 稳步 增加 一 一 2003 年 11 月 ,这 一 数字 已 
达到 211 台 ,机群 首次 成 为 Top500 排名 中 比例 最 高 的 结构 ;截至 2013 年 6 月 ,已 经 连续 20 
期 位 居 榜 首 。 机 群 已 成 为 当今 构建 高 性 能 计算 机 系统 时 最 常 被 采用 的 结构 。 

表 12.1 Top500 中 机 群 计算 机 的 数量 和 比例 


时 间 1997.06 | 1997.11 | 1998.06 | 1998.11 | 1999.06 | 1999.11 | 2000.06 | 2000.11 
数量 1 1 1 2 6 多 11 28 
比例 0.2% 0.2% 0.2% 0.4% 1.2% 1.4% 2.2% 5.6% 


时 间 2001.06 2001.11 2002.06 | 2002.11 2003. 06 2003. 11 2004. 06 2004. 11 


数量 32 43 81 92 151 221 298 298 


比例 6.4% 8.6% 16.2% 18.4% 30.2% 44.2% 59.6% 59.6% 


时 间 2005.06 | 2006.06 | 2007.06 | 2008.06 | 2009.06 | 2010.06 | 2011.06 2013. 06 


数量 304 364 374 399 410 424 411 417 
比例 60.8% 72.8% 74.8% 79.8% 82% 84.8% 82.2% 83.4% 


12.1 机 群 的 基本 结构 


本 节 从 硬件 和 软件 两 个 方面 讨论 机 群 系统 的 基本 结构 。 机 群 系统 由 独立 的 计算 机 搭建 
而 成 ,因此 机 群 系统 设计 者 在 进行 硬件 设计 时 所 面临 的 主要 问题 往往 不 是 如 何 设计 这 些 计 
算 机 ,而 是 如 何 合理 地 选择 现 有 的 商用 计算 机 产品 ,这 可 以 减少 系统 的 开发 与 维护 费用 。 相 
对 于 硬件 而 言 ,设计 机 群 系 统 的 软件 时 具有 很 大 的 灵活 性 ,除了 操作 系统 和 并 行程 序 设 计 环 
境外 ,其 他 管理 软件 (如 监控 模块 等 )Y 有 时 会 由 机 群 系统 的 设计 人 员 自 行 开发 ,以 便 实现 特殊 
的 功能 。 


12.1.1 机 群 的 硬件 组 成 


机 群 是 一 种 价格 低廉 ,易于 构建 ,可 扩 放 性 极 强 的 并 行 计算 机 系统 , 它 由 多 台 同 构 或 异 
构 的 独立 计算 机 通过 高 性 能 网 络 或 局 域 网 互 连 在 一 起 ,协同 完成 特定 的 并 行 计算 任务 。 从 
用 户 的 角度 来 看 ,机 群 就 是 一 个 单一 、 集 中 的 计算 资源 。 

图 12.1 给 出 了 一 个 含有 4 台 PC 的 简单 机 群 的 逻辑 结构 ,图 中 NIC 表示 网 络 接口 ,PCI 
表示 1/O 接口 。 这 是 一 种 无 共享 的 结构 ,4 台 PC 通过 交换 机 (Switch) 连 接 在 一 起 。 目 前 大 
多 数 机 群 系统 都 采用 这 种 结构 。 如 果 将 图 中 的 交换 机 换 为 共享 磁盘 ,就 可 以 得 到 共享 磁盘 
结构 的 机 群 系统 。 


存储 器 


CPU | cache | CPU 上 | Cache | 


NIC 上 | Pcr | NIC 上 | Pcr 


Switch | 


存储 器 


NIC 上 _ Pcl 


CPU HH Cache | CPU 一 Cache | 


NIC PCI 


图 12.1 一 个 包含 4 个 节点 的 PC 简单 机 群 


构成 机 群 的 每 台独 立 计算 机 都 是 机 群 的 一 个 节点 。 每 个 节点 都 是 一 个 完整 的 计算 机 系 
统 , 拥 有 本 地 磁盘 和 操作 系统 ,可 以 作为 一 个 单独 的 计算 资源 供用 户 使 用 。 除 了 PC 外 ,机 
群 的 节点 还 可 以 是 工作 站 ,甚至 是 规模 较 大 的 对 称 多 处 理 机 。 
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按照 机 群 系统 中 各 节点 的 功能 不 同 , 可 以 将 它们 分 为 三 类 , 即 中 计算 节点 ,用 于 完成 计 
算 任 务 ; @ 管 理 /登录 节点 ,它们 是 外 部 设备 和 机 群 系统 之 间 连 接 的 桥梁 ,任何 用 户 和 系统 
的 管理 员 都 只 能 通过 此 类 节点 登录 到 系统 中 。 此 外 ,管理 /登录 节点 还 应 具有 管理 和 作业 提 
交 等 功能 ; @1O 节点 ,作为 NFS 文件 系统 的 主 节点 ,1/O 节点 一 般 由 存储 设备 ,网 络 文件 
系统 (NFS) 等 组 成 ,外 挂 磁盘 阵列 或 者 连接 其 他 存储 设备 ,负责 文件 的 1/O 操作 ,其 他 节点 
访问 存储 设备 的 请 求 都 要 通过 I/O 节点 完成 。 

这 三 类 节点 所 需 的 具体 硬件 配置 也 不 相同 。 计 算 节 点 需要 提供 很 强 的 计算 能 力 , 对 于 
某 些 应 用 而 言 特别 需要 强大 的 浮 点 计算 能 力 。 此 外 ,计算 节点 还 应 提供 适量 的 内 存 , 使 运算 
时 数据 能 完全 驻 留 在 物理 内 存 中 ,并 能 够 支持 高 速 、 低 延迟 的 通信 网络 。 而 系统 对 管理 / 登 
录 节 点 要 求 不 高 ,只 要 采用 相对 经 济 的 配置 就 可 以 了 。 

机 群 的 各 个 节点 一 般 通 过 商品 化 网 络 连接 在 一 起 ,如 以 太 网 , Myrinet Infiniband、 
Quadrics 等 ,部 分 商用 机 群 也 采用 专用 网 络 连 接 , 如 SP Switch、NUMAAlink、Crossbar、 
Cray Interconnect 等 。 网 络 接口 与 节点 的 1/0O 总 线 以 松 耦 合 的 方式 相连 ,如 图 12. 1 中 的 
NIC 与 PCI 所 示 。 

无 论 是 计算 机 还 是 互连网 络 ,可 供 设计 者 选择 的 产品 都 非常 多 ,而 且 不 同 厂家 的 产品 在 
功能 .性 能 以 及 价格 上 也 都 有 所 差别 ,如 何 选择 合适 的 产品 ,主要 取决 于 具体 的 用 户 对 机 和 群 
的 具体 要 求 。 


12.1.2 机 群 的 软件 


软件 也 是 机 群 系统 的 重要 组 成 部 分 。 由 于 机 群 系统 结构 松散 .节点 独立 性 强 、 网 络 连接 
复杂 ,使 得 机 群 系统 管理 不 便 、 难 以 使 用 。 为 了 解决 这 一 问题 ,国际 上 流行 的 方式 是 在 各 节 
点 的 操作 系统 之 上 再 建立 一 层 操 作 系 统 来 管理 整个 机 群 ,这 就 是 机 群 操作 系统 。 

除了 提供 硬件 管理 ,资源 共享 以 及 网 络 通信 等 功能 外 ,机 群 操作 系统 还 必须 完成 的 另外 
一 项 重要 功能 是 实现 单一 系统 映像 (Single System Image,SSI) ,这 是 机 群 的 一 个 重要 特征 。 
正 是 通过 SSI 才 使 得 机 群 在 使 用 ,控制 .管理 和 维护 上 更 像 一 个 单独 的 计算 资源 。 

SSI 共有 四 重 含义 。 首 先是 “单一 系统 ”, 尽 管 系统 中 有 多 个 处 理 器 ,用 户 仍 然 把 整个 机 
群 视 为 一 个 单一 的 计算 系统 来 使 用 。 其 次 是 “单一 控制 ”, 在 逻辑 上 ,最 终 用 户 或 系统 用 户 使 
用 的 服务 都 来 自 机 群 中 唯一 的 一 个 位 置 。 例 如 用 户 将 批 处 理 作 业 提交 到 一 个 唯一 的 作业 集 
中 ,而 系统 管理 员 则 通过 一 个 唯一 的 控制 点 对 整个 机 群 的 所 有 软 硬 件 进行 管理 和 配置 。 然 
后 是 “对 称 性 ”, 用 户 可 以 从 机 群 的 任何 一 个 节点 上 获得 服务 ,也 就 是 说 ,对 于 所 有 节点 和 所 
有 用 户 , 除 了 那些 具有 特定 访问 权限 的 服务 与 功能 外 .所 有 其 他 服务 与 功能 都 是 对 称 的 ,可 
以 通过 任何 一 个 节点 提供 给 用 户 。 最 后 则 是 “位 置 透明 ”用 户 不 必 了 解 真正 执行 服务 的 物 
理 设 备 的 具体 位 置 。 

一 般 来 说 ,机 群 系统 中 的 SSI 至 少 应 该 提供 以 下 三 种 服务 : 

(1) 单一 登录 (Single Sign On) , 即 用户 可 以 通过 机 群 中 的 任何 一 个 节点 登录 ,而 且 在 
整个 作业 执行 过 程 中 只 需 登 录 一 次 ,不 必 因 作业 被 分 派 到 其 他 节点 上 执行 而 重新 登录 。 

(2) 单一 文件 系统 (Single File System) ,这 有 两 方面 含义 。 首先 ,在 机 群 系统 中 ,有 一 
些 对 整个 机 群 所 有 节点 都 相同 的 软件 ,没有 必要 在 每 一 个 节点 上 重复 安装 。 其 次 ,尽管 执行 
并 行 作业 时 要 求 每 个 节点 都 可 以 访问 到 这 些 软件 ,但 它们 在 整个 机 群 系统 中 应 该 只 有 一 个 


备份 。 

(3) 单一 作业 管理 系统 (Single Job Management System) 。 用 户 可 以 透明 地 从 任 一 节 
点 提交 作业 ,作业 可 以 以 批 处 理 、 交 互 或 并 行 的 方式 被 调度 执行 。 PBS、LSF、Condor 和 
JOSS 都 是 目前 比较 具有 代表 性 的 作业 管理 系统 。 

此 外 ,并 行 编程 模型 以 及 相关 的 并 行 编程 环境 也 是 机 群 系统 中 不 可 缺少 的 软件 。 目 前 
比较 流行 的 并 行 编程 工具 包括 MPI、PVM、OpenMP、HPF 等 。MPI(Message Passing 
Interface) 是 目前 最 重要 的 一 个 基于 消息 传递 的 并 行 编程 工具 , 它 具 有 可 移植 性 好 、 功 能 强 
大 效率 高 等 许多 优点 ,而 且 有 许多 不 同 的 免费 ,高效 、. 实 用 的 实现 版 本 ,几乎 所 有 的 并 行 计 
算 机 厂商 都 提供 对 它 的 支持 ,使 它 成 为 并 行 编程 的 事实 标准 。PVM (Parallel Virtual 
Machine) 也 是 一 种 常用 的 基于 消息 传递 的 并 行 编程 环境 , 它 把 工作 站 网 络 构建 成 一 个 虚拟 
的 并 行 机 系统 ,为 并 行 应 用 程序 提供 了 运行 平台 。HPF(CHigh Performance Fortran) 是 一 个 
支持 数据 并 行 的 并 行 语言 标准 。OpenMP(Open Multi-Processing) 是 一 个 共享 存储 并 行 系 
统 上 的 应 用 编程 接口 , 它 规范 了 一 系列 的 编译 制导 .运行 库 例 程 和 环境 变量 , 并 为 
C/C++ 和 FORTRAN 等 高 级 语言 提供 了 应 用 编程 接口 ,已 经 应 用 于 UNIX、Windows 等 多 
种 平台 。 

图 12.2 列 出 了 机 群 系统 的 软件 框架 。 机 群 操作 系统 、SSI 以 及 其 他 一 些 机 群 正常 工作 
所 必需 的 软件 一 同 构成 了 机 群 中 间 件 。 在 它 之 上 是 并 行 编程 环境 ,用 户 可 以 通过 并 行 编程 
环境 完成 并 行 应 用 程序 的 开发 。 当 然 , 串 行 应 用 也 可 以 通过 机 群 中 间 件 被 调度 到 某 个 节点 
上 执行 。 

并 行 应 用 


串 行 应 用 口 并 行 编程 环境 P 


机 群 中 间 件 
(单一 影像 系统 和 可 用 性 基础 ) 


图 12.2 机 群 系统 的 软件 框架 


12.2 机 群 的 特点 


与 MPP、PVP、SMP、DSM 等 传统 并 行 计算 机 系统 相 比 ,机 群 系统 具有 许多 优点 : 

(1) 系统 开发 周期 短 。 由 于 机 群 系统 大 多 采用 商品 化 的 PC 工作 站 作为 节点 ,并 通过 
商用 网 络 连接 在 一 起 ,系统 开发 的 重点 在 通信 子 系统 和 并 行 编程 环境 上 ,这 大 大 节省 了 研制 
时 间 。 

(2) 可 靠 性 高 。 机 群 中 的 每 个 节点 都 是 独立 的 PC 或 工作 站 , 某 个 节点 的 失效 并 不 会 影 
响 其 他 节点 的 正常 工作 ,而 且 它 的 任务 还 可 以 迁移 到 其 他 节点 上 继续 完成 ,从 而 有 效 地 避免 
由 于 单 节点 失效 引起 的 系统 可 靠 性 问题 。 
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(3) 可 扩 放 性 强 。 机 群 的 计算 能 力 随 着 节点 数量 的 增加 而 增 大 。 这 一 方面 得 益 于 机 群 
结构 的 灵活 性 ,由 于 节点 间 以 松 耦合 方式 连接 ,机 群 的 节点 数量 可 以 增加 到 成 百 上 千 ; 另 一 
方面 则 是 由 于 机 群 系统 的 硬件 容易 扩充 和 替换 ,可 以 灵活 配置 。 

(4) 性 能 价格 比 高 。 由 于 生产 批量 小 ,传统 并 行 计算 机 系统 的 价格 均 比较 昂贵 ,往往 要 
几 百 万 到 上 千 万 美元 。 而 机 群 的 节点 和 网 络 都 是 商品 化 的 计算 机 产品 ,能够 大 批量 生产 ,成 
本 相对 较 低 ,因而 机 群 系统 的 性 能 价格 比 更 好 。 与 相同 性 能 的 传统 并 行 计算 机 系统 相 比 ,机 
群 的 价格 要 低 1 一 2 个 数量 级 。 

(5) 用 户 编 程 方便 。 机 群 系统 中 ,程序 的 并 行 化 只 是 在 原 有 的 CC++ 或 FORTRAN 
串 行程 序 中 插入 相应 的 通信 原 语 , 对 原 有 串 行 程序 的 改动 有 限 。 用 户 仍然 可 以 使 用 熟悉 的 
编程 环境 ,无 需 适用 新 的 环境 。 

当然 ,机群 的 迅猛 发 展 还 得 益 于 微 处 理 器 技术 、 网 络 技术 和 并 行程 序 设 计 技 术 的 进步 。 
第 一 , 微 处 理 器 技术 的 进步 使 得 微 处 理 器 的 性 能 不 断 提高 ,而 价格 却 在 不 断 下 降 , 这 使 得 机 
群 节点 的 处 理性 能 进一步 提高 。 第 二 ,与 传统 超级 计算 机 相 比 ,机 群 系统 更 容易 融合 到 已 有 
的 网 络 系统 中 ,而且 随 着 网 络 技术 的 进步 和 高 性 能 通信 协议 的 引入 ,机群 节点 间 的 通信 带宽 
进一步 提高 ,通信 延迟 进一步 缩短 ,逐步 缓解 了 由 于 节点 松散 耦合 引起 的 机 和 群 系统 通信 瓶颈 
问题 。 第 三 , 随 着 PVM、MPI、HPF、OpenMP 等 并 行 编程 模型 的 应 用 与 成 熟 ,使 得 在 机 群 系 
统 上 开发 并 行 应 用 程序 更 加 方便 ,无 论 是 编写 新 的 应 用 程序 还 是 改写 已 有 的 串 行程 序 都 更 
加 容易 。 而 传统 超级 计算 机 却 一 直 缺 乏 一 个 统一 的 标准 。 

但 是 机 群 也 有 不 足 之 处 。 由 于 机 群 由 多 台 完 整 的 计算 机 组 成 , 它 的 维护 相当 于 要 同时 
去 管理 多 个 计算 机 系统 ,因此 维护 工作 量 较 大 ,维护 费用 也 较 高 。SMP 则 相对 较 好 ,因为 管 
理 员 只 要 维护 一 个 计算 机 系统 即 可 。 正 因为 如 此 ,现在 很 多 机 群 采用 SMP 作为 节点 ,这 样 
可 以 减少 节点 数量 ,达到 减少 维护 工作 量 和 开支 的 目的 。 


12.3 机群 的 分 类 


按照 不 同 的 标准 ,机 群 的 分 类 方法 有 很 多 。 例 如 ,根据 组 成 机 群 的 各 个 节点 和 网 络 是 否 
相同 ,机 群 可 以 分 为 同 构 与 异 构 两 类 ;根据 节点 是 PC 还 是 工作 站 ,机 群 可 以 进一步 分 为 PC 
机 群 与 工作 站 机 群 。 不 过 最 常用 的 分 类 方法 还 是 以 机 群 系统 的 使 用 目的 为 依据 ,将 其 分 为 
高 可 用 性 机 群 、 负 载 均衡 机 群 以 及 高 性 能 计算 机 群 三 类 。 

高 可 用 性 机 群 。 这 类 机 群 的 主要 目的 是 在 系统 中 的 某 些 节点 出 现 故 障 的 情况 下 , 仍 能 
继续 对 外 提供 服务 。 它 采用 宛 余 机 制 , 当 系 统 中 某 个 节点 由 于 软 硬 件 故 障 而 失效 时 ,该 节点 
上 的 任务 将 在 最 短 的 时 间 内 被 迁移 到 机 群 内 另 一 个 具有 相同 功能 与 结构 的 节点 上 继续 执 
行 。 这 样 ,对 于 用 户 而 言 ,系统 就 可 以 一 直 为 其 提供 服务 。 这 类 机 群 适用 于 Web 服务 器 、 医 
学 监测 仪 银 行 POS 系统 等 要 求 持 续 提 供 服务 的 应 用 。 

负载 均衡 机 群 。 这 类 机 群 的 主要 目的 是 提供 与 节点 个 数 成 正比 的 负载 能 力 ,这 就 要 求 
机 和 群 能 够 根据 系统 中 各 个 节点 的 负载 情况 实时 地 进行 任务 分 配 。 为 此 , 它 专 门 设置 了 一 个 
重要 的 监控 节点 ,负责 监控 其 余 每 个 工作 节点 的 负载 和 状态 ,并 根据 监控 结果 将 任务 分 派 到 
不 同 的 节点 上 。 这 种 机 群 很 适合 大 规模 网 络 应 用 (如 Web 服务 器 或 FTP 服务 器 )、 大 工作 
量 的 串 行 或 批 处 理 作 业 ( 如 数据 分 析 ) 。 


负载 均衡 机 群 往往 也 具有 一 定 的 高 可 用 性 特点 ,但 两 者 的 工作 原理 不 同 , 因 而 适用 于 不 
同类 型 的 服务 。 通 常 , 负 载 均衡 机 群 适 用 于 提供 静态 数据 的 服务 ,如 HTTP 服务 ;而 高 可 用 
性 机 群 既 适 用 于 提供 静态 数据 的 服务 ,又 适用 于 提供 动态 数据 的 服务 ,如 数据 库 等 。 之 所 以 
高 可 用 性 集群 能 适用 于 提供 动态 数据 的 服务 ,是 由 于 它 的 节点 共享 同一 存储 介质 ,也 就 是 
说 ,在 高 可 用 性 集群 内 ,每 种 服务 的 用 户 数据 只 有 一 份 ,存放 专门 的 存储 节点 上 ,在 任 一 时 刻 
只 有 一 个 节点 能 读 写 这 份 数据 。 

高 性 能 计算 机 群 。 这 类 机 群 的 主要 目的 是 降低 高 性 能 计算 的 成 本 。 它 通过 高 速 的 商用 
互连网 络 , 将 数 十 个 乃至 上 千 台 PC 或 工作 站 连接 在 一 起 ,可 以 提供 接近 甚至 超过 传统 并 行 
计算 机 系统 的 计算 能 力 ,但 其 价格 却 仅 是 具有 相同 计算 能 力 的 传统 并 行 计算 机 系统 的 几 十 
分 之 一 。 这 样 ,通过 利用 若干 台 PC 就 可 以 完成 通常 只 有 超级 计算 机 才能 完成 的 计算 任务 。 
这 类 机 群 适用 于 计算 量 巨大 的 并 行 应 用 ,如 石油 矿藏 定位 气象 变化 模拟 、 基 因 序 列 分 析 等 。 
当然 ,为 了 稳定 地 提供 高 性 能 计算 服务 , 它 也 必须 满足 一 定 的 可 用 性 要 求 。 

还 有 一 种 比较 常用 的 分 类 方法 是 按照 构建 方式 将 机 群 分 为 专用 机 群 和 企业 机 群 两 类 。 
专用 机 群 是 为 代替 传统 的 大 中 型 机 或 巨型 机 而 设计 的 ,装置 比较 紧凑 ,一 般 都 装 在 比较 小 的 
机 架 内 , 放 在 机 房 中 使 用 ,因此 它 的 吞吐 率 较 高 ,响应 时 间 也 较 短 。 专 用 机 群 的 节点 往往 是 
同 构 的 ,一 般 采 用 集中 控制 ,由 一 个 (或 一 组 ) 管 理 员 统一 管理 .而且 用 户 一 般 需 要 通过 一 台 
终端 机 来 访问 它 , 这 样 做 的 好 处 是 其 内 部 对 外 界 完全 屏蔽 。 而 企业 机 群 则 正好 相反 , 它 是 为 
了 充分 利用 各 个 节点 的 空闲 资源 而 设计 的 ,因此 其 各 个 节点 分 散 安 放 , 并 不 需要 安装 在 同一 
个 房间 ,甚至 不 需要 安排 在 同一 幢 楼 中 。 各 节点 一 般 通过 标准 的 LAN 或 WAN 互 连 , 通 信 
开销 较 大 、 延 迟 较 长 。 企 业 机 群 的 各 个 节点 一 般 是 异 构 的 ,并 由 不 同 的 个 人 拥有 ,这 样机 群 
管理 者 只 能 对 各 个 节点 进行 有 限 的 管理 ,节点 拥有 者 可 以 随意 地 进行 关机 、 重 新 配置 或 者 升 
级 ,而 且 对 一 个 节点 而 言 , 它 的 拥有 者 的 任务 应 该 具有 最 高 优先 级 ,高 于 企业 的 其 他 用 户 。 
显然 ,企业 机 群 的 内 部 通信 是 对 外 暴露 的 ,存在 一 定 的 安全 隐患 ,需要 在 通信 子 系统 中 采用 
专门 的 措施 来 避免 。 


12.4 典型 机 群 系统 简介 


12.4.1 Berkeley NOW 


NOW 由 美国 加 州 大 学 Berkeley 分 校 开发 ,是 一 个 颇 有 影响 的 机 群 系统 ,采用 了 很 多 先 
进 的 技术 ,涉及 许多 机 和 群 系统 的 共同 问题 。 它 具有 很 多 优点 ,如 采用 商用 千 兆 以 太 网 和 主动 
消息 通信 协议 支持 有 效 的 通信 ,通过 用 户 级 整合 机 群 软件 GLUNIX(Global Layer Linux) 
提供 单一 系统 映像 ,资源 管理 和 可 用 性 ,开发 了 一 种 新 的 无 服务 器 网 络 文件 系统 xFS, 以 支 
持 可 扩 放 性 和 单一 文件 层次 的 高 可 用 性 。 

(1) 主动 消息 。 它 是 实现 低 开销 通信 的 一 种 异步 通信 机 制 ,其 基本 思想 是 在 消息 头 部 
控制 信息 中 携带 一 个 用 户 级 子 例 程 ( 称 为 消息 处 理 程 序 ) 的 地 址 。 当 消息 头 到 达 目 的 节点 
时 ,调用 消息 处 理 程序 通过 网 络 获取 剩 下 的 数据 ,并 把 它们 集成 到 正在 进行 的 计算 中 。 主 动 
消息 相当 高 效 和 灵活 ,以 至 于 各 种 系统 都 逐渐 以 它 作为 基本 的 通信 机 制 。 

(2) GLUNIX。 它 是 运行 在 工作 站 标准 UNIX 上 的 一 个 软件 层 .属于 自 包 含 软件 。 其 
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主要 的 想法 是 机 群 操作 系统 应 由 底层 和 高 层 组 成 ,其 中 底层 是 执行 在 核 模 式 下 的 节点 商用 
操作 系统 ,高 层 是 能 提供 机 群 所 需 的 一 些 功能 的 用 户 级 操作 系统 。 特 别 地 ,这 一 软件 层 能 够 
提供 机 群 内 节点 的 单一 系统 映像 ,使 得 所 有 的 处 理 器 存储器、 网络 容 量 和 磁盘 带宽 均 可 以 
被 分 配给 串 行 和 并 行 应 用 程序 ,并 且 它 能 够 以 被 保护 的 用 户 级 操作 系统 库 的 形式 实现 。 

(3) 无 服务 器 文件 系统 xFS。 它 是 一 个 无 服务 器 的 分 布 式 文件 系统 , 它 将 文件 服务 的 
功能 分 布 到 机 群 的 所 有 节点 上 ,以 提供 低 延迟 高 带宽 的 文件 系统 服务 功能 。 它 主要 采用 廉 
价 元 余 磁盘 阵列 .协同 文件 缓存 和 分 布 式 管理 等 技术 。 


12.4.2 Beowulf 


1994 年 ,NASA 的 一 个 科研 项 目 迫 切 需 要 一 种 工作 站 ,要 求 它 既 具有 1GFLOPS 的 计 
算 处 理 能 力 和 10GB 的 存储 容量 ,价格 又 不 能 过 高 。 为 了 达到 这 一 目标 ,工作 在 CESDIS 的 
Thomas Sterling 与 Don Becker 两 人 构建 了 一 个 具有 16 个 节点 的 机 群 , 其 硬件 使 用 了 Intel 
的 DX4 处 理 器 以 及 10Mbys 的 以 太 网 ,软件 则 主要 基于 当时 刚刚 诞生 的 Linux 系统 以 及 其 
他 一 些 GNU 软件 。 这样 既 满足 了 计算 能 力 和 存储 容量 的 要 求 ,又 降低 了 成 本 ,他 们 将 这 个 
系统 命名 为 Beowulf。 这 种 基于 COTS(Commodity Off The Shelf) 思 想 的 技术 也 迅速 由 
NASA 传播 到 其 他 科研 机 构 , 因 此 这 类 机 群 被 称 为 Beowulf 机 群 (Beowulf Class Cluster 
Computers) 。 

Beowulf 机 群 定 义 了 这 样 一 种 系统 : 使 用 普通 的 硬件 加 上 Linux 操作 系统 ,再 加 上 
GNU 开发 环境 以 及 PVM/MPI 共享 库 所 构建 的 机 群 。 它 一 方面 集中 了 那些 相对 较 小 的 机 
器 的 计算 能 力 ,能够 以 很 高 的 性 能 价格 比 提供 与 大 型 机 相当 的 性 能 , 另 一 方面 也 保证 了 软件 
环境 的 稳定 性 。 

Beowulf 并 不 是 一 套 具 体 的 软件 包 或 是 一 种 新 的 网 络 拓 扑 结构 , 它 只 是 一 种 思想 , 即 在 
达到 既定 目标 的 前 提 下 ,把 注意 力 集中 在 获取 更 高 的 性 能 价格 比 上 。 虽 然 目前 为 了 获取 更 
高 的 性 能 ,有 些 Beowulf 机 群 系统 也 使 用 了 一 些 专用 或 商用 的 软件 以 及 特殊 的 网 络 互 连 系 
统 ,但 其 基本 宗旨 还 是 不 变 的 。 


12.4.3 LAMP 


随 着 硬件 技术 的 不 断 进步 ,SMP 机 器 的 成 本 不 断 下 降 。 由 于 SMP 机 器 提供 了 良好 的 
节点 内 部 通信 能 力 , 所 以 使 用 低 成 本 、 小 配置 (2 一 8 个 处 理 器 ) 的 SMP 构建 机 群 系统 逐渐 成 
为 主流 ,这 种 结构 的 系统 被 统称 为 CLUMPs(CLUster of Multi Processors) 。 由 于 SMP 节 
点 内 部 与 SMP 节点 间 的 通信 和 能力 往往 不 一 致 ,CLUMPs 一 般 使 用 专门 的 通信 协议 和 通信 
算法 。 

LAMP(Local Area Multi Processor) 是 由 NEC 实验 室 构 建 的 基于 Pentium Pro PC 的 
SMP 机 群 。LAMP 共有 16 个 节点 ,每 个 节点 包含 两 个 Pentium Pro 200MHz 的 CPU 以 及 
256MB 内 存 , 操 作 系 统 使 用 了 支持 SMP 的 Linux 2. 0. 34 内 核 版 本 ,提供 MPICH 1.1.0 并 
行程 序 开发 环境 。 同 一 个 SMP 节点 内 的 两 个 CPU 之 间 采 用 基于 共享 存储 器 的 消息 传递 
机 制 进行 通信 ,而 节点 间 通 信和 则 通过 Myrinet 完成 。 

从 某 种 角度 看 ,LAMP 同样 采用 了 Beowulf 的 思想 ,但 它 是 基于 SMP 机 器 来 构建 的 ， 
这 反映 了 当前 机 群 系统 发 展 的 一 个 重要 趋势 。 


机 群 系统 


12.4.4 IBM SP2 


IBM SP2 是 机 群 中 的 代表 性 产品 , 它 既 可 用 于 科学 计算 ,也 可 供 商 业 应 用 。1997 年 人 
机 大 战 中 战胜 世界 国际 象棋 冠军 卡 斯 帕 罗 夫 的 “深蓝 ”, 就 是 一 台 采 用 30 个 RS/6000 工作 
站 ( 带 有 专门 设计 的 480 片 国 际 象 棋 芯 片 ) 的 IBM SP2 机 群 。 

SP2 机 群 是 异步 的 MIMD, 具 有 分 布 式 存 储 器 系统 结构 ,如 图 12. 3 所 示 。 它 的 每 个 节 
点 都 是 一 台 RS/6000 工作 站 , 带 有 自己 的 存储 器 (M) 和 本 地 磁盘 (D)。 节 点 中 采用 的 处 理 
器 (P) 是 一 种 6 流出 的 超标 量 处 理 机 ,每 个 时 钟 周 期 可 以 执行 6 条 指令 ,包括 2 条 读数 写 数 
指令 ,2 条 浮 点 乘 或 加 指令 ,1 条 变 址 增 量 指令 和 1 条 条 件 转移 指令 。 每 个 节点 配 有 一 套 完 
整 的 AIX 操作 系统 (IBM 的 UNIX) ,节点 间 的 互连网 络 接口 是 松 耦 合 的 ,通过 节点 本 身 的 
W/O 微 通道 (MCC) 接 到 网 络 上 ,而 不 是 通过 本 身 的 存储 器 总 线 。 微 通道 是 IBM 公司 的 标准 
1/O 总 线 , 用 于 把 外 部 设备 连接 到 RS/6000 工作 站 和 IBM PC 上 。 这 个 系统 采用 标准 的 工 
作 站 部 件 , 仅 在 标准 技术 不 能 满足 性 能 要 求 时 才 使 用 专用 软件 和 硬件 。 节 点 的 硬件 和 软件 
都 能 根据 不 同 用 户 的 应 用 和 环境 的 需要 分 别 进行 配置 。 由 于 SP2 采用 机 群 系统 结构 ,因此 
它 的 开发 周期 比较 短 。 


以 太 网 
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| Pp 节点 1 | | Pp 节点 2 | 
1 1 4 
| D E | | ! D E | 
| 二 | | 一 以 大 网 适配器 
1! | LO 总 线 | | 1O 总 线 | 
1 NIC | 1 EE | 
| M 1 M 1 
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图 12.3 SP2 的 系统 结构 


SP2 的 节点 数 可 以 从 2 一 512 个 不 等 ,除了 每 个 节点 采用 RS/6000 工作 站 外 ,整个 SP2 
系统 还 需要 配置 另外 一 台 RS/6000 工作 站 作为 系统 控制 台 ( 图 12. 3 中 S) 。 节 点 间 可 以 通 
过 两 个 网 络 进行 互 连 ,一 个 是 标准 以 太 网 , 另 一 个 是 专门 设计 的 高 性 能 开关 HPS, 这 是 一 个 
Omega 多 级 开关 网 络 。 一 般 以 太 网 用 于 对 通信 速度 要 求 不 高 的 程序 开发 工作 ,而 开发 好 的 
程序 在 正式 运行 时 使 用 HPS。 以 太 网 还 起 到 备份 的 作用 , 当 HPS 出 现 故 障 时 可 以 通过 以 
太 网 使 系统 维持 正常 工作 状态 。 此 外 ,以 太 网 还 可 以 供 系 统 的 监视 .引导 、 加 载 . 测 试 和 其 他 
系统 管理 软件 使 用 。 

SP2 的 节点 可 分 为 三 类 : 宽 节 点 、 细 节点 和 细 2 节点 ,它们 都 有 一 个 指令 Cache, 一 个 数 
据 Cache, 一 个 分 支 指令 和 转移 控制 部 件 ,两 个 整数 部 件 和 两 个 浮 点 部 件 ,但 它们 在 存储 器 
容量 .数据 宽度 和 1/O 总 线 插 槽 数 上 有 所 不 同 。 例 如 ,在 存储 器 容量 方面 , 宽 节 点 可 达 64 一 
2048MB ,其 他 两 种 是 64 一 512MB; 细 节点 和 细 2 节点 可 以 有 二 级 Cache, 宽 节点 则 没有 ;在 
存储 器 总 线 的 宽度 方面 , 宽 节 点 是 256 位 的 , 细 2 节点 是 128 位 的 .细节 点 则 是 64 位 的 。 这 
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样 做 的 目的 是 为 了 使 系统 的 配置 更 灵活 。 在 SP2 的 每 个 节点 中 ,存储 器 和 Cache 的 容量 都 
比较 大 ,处 理 器 性 能 亦 较 高 ,这 使 得 SP2 的 处 理 能 力 能 够 达到 相当 高 的 水 平 。 

SP2 的 节点 通过 网 络 接口 开关 (NIC) 接 到 HPS.IBM 将 其 称 做 开关 适配器 。 开 关 适 配 
器 中 有 一 个 8MB 的 DRAM 用 来 存放 各 种 不 同 协议 所 需 的 大 量 报 文 , 并 用 一 台 i860 微 处理 
器 进行 控制 。 节 点 通过 以 太 网 适配器 下 接 到 以 太 网 上 。 在 SP2 系统 中 , 除 HPS 外 ,有 的 还 
采用 光纤 分 布 式 数据 接口 (FEFDDI) 环 连接 各 节点 。 

SP2 的 IO 子 系统 的 总 体 结构 如 图 12.4 所 示 。SP2 的 I/O 系统 基本 上 是 围绕 HPS 建 
立 的 ,并 可 以 用 一 个 LAN 网 关 同 SP2 系统 外 的 其 他 计算 机 连接 。SP2 的 节点 可 以 有 4 种 
配置 ,分 别 是 宿主 节点 .IO 节点 、 网 关节 点 和 计算 节点 。 宿 主 节点 (图 12.4 中 的 H) 用 来 处 
理 各 种 用 户 注册 会 话 和 进行 交互 处 理 ,I/O 节点 (图 中 的 1/O) 主 要 用 来 实现 1/O 功能 ,例如 
作为 全 局 文件 服务 器 ,网 关节 点 (图 中 的 G) 具 备 联网 功能 ,而 计算 节点 (图 中 的 C) 则 专 供 计 
算 使 用 。 这 4 种 节点 也 可 以 有 一 定 的 重 倒 ,例如 一 个 宿主 节点 也 可 以 作为 计算 节点 ,一 个 
I/O 节点 也 可 以 作为 网 关节 点 。 此 外 ,SP2 系统 还 可 以 有 一 台 到 几 台 外 部 服务 器 ,例如 可 以 
附加 文件 服务 器 、 网 络 路 由 器 .可 视 系 统 等 。 
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IO| … |7o [a| … | H 1 
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图 12.4 SP2 1/O 子 系统 总 体 结构 


SP2 系统 软件 的 核心 是 AIX 操作 系统 。SP2 系统 中 ,在 RS/6000 工作 站 原 有 环境 下 开 
发 的 大 部 分 软件 都 能 被 重用 ,包括 一 千 多 种 串 行 的 应 用 程序 .数据 库 管 理 系统 (DB2)、 联 机 
事务 处 理 监 控 程 序 (CICS/6000) .系统 管理 和 作业 管理 软件 .FORTRANVC++ 编译 程序 , 数 
学 和 工程 程序 库 (ESSL) 标准 的 AIX 操作 系统 等 。SP2 系统 只 是 添加 了 一 些 可 扩 放 并 行 
系统 所 必需 的 新 软件 ,或 对 少量 现成 软件 进行 一 些 修改 ,使 之 适应 可 扩 放 并 行 系统 。 

SP2 中 设置 了 一 个 专门 的 系统 控制 台 用 以 管理 整个 系统 。 通 过 该 系统 控制 台 , 系 统管 
理 人 员 可 以 从 单一 地 点 对 整个 系统 进行 管理 。 此 外 ,在 SP2 硬件 中 ,每 个 节点 `. 开 关 和 机 架 
上 都 集成 了 一 个 监视 板 , 这 种 监视 板 能 对 环境 进行 检测 ,并 对 硬件 部 件 进行 控制 。 管 理 人 员 
可 以 用 这 套 设 施 来 启动 和 切断 电源 ,进行 监控 ,把 单个 节点 和 开关 部 件 置 成 初始 状态 。 


习 题 12 
12.1 解释 下 列 名 词 。 


机 和 群 单一 系统 映像 高 可 用 性 机 群 负载 均衡 机 群 高 性 能 机 群 
Beowulf 机 群 


wo 


机 群 系统 有 哪些 特点 ? 
机 群 系统 的 SSI 提供 了 哪些 服务 ? 


机 群 系统 中 的 节点 可 以 按照 功能 分 为 哪些 类 型 ? 它们 在 配置 上 有 何不 同 ? 
根据 机 群 系统 的 使 用 目的 可 以 将 机 群 系统 分 为 哪 三 类 ? 它们 分 别 有 什 么 特点 ? 
试 描 述 专用 机 群 和 企业 机 群 的 区 别 。 

说 明 IBM SP2 机 群 的 结构 特点 。 


第 章 
3 阵列 处 理 机 


内 容 提要 

(1) 阵列 处 理 机 的 操作 模型 和 特点 ; 

(2) 阵列 处 理 机 的 基本 结构 ; 

(3) 阵列 处 理 机 实例 ; 

(4) 阵列 处 理 机 的 并 行 算 法 举例 。 

这 种 计算 机 之 所 以 称 为 阵列 处 理 机 ,是 因为 其 核心 是 一 个 由 多 个 处 理 单元 构成 的 阵列 。 
它 采用 资源 重复 的 方法 ,设置 较 多 的 处 理 单元 来 提高 并 行 性 。 由 于 它 是 用 单一 的 控制 部 件 
来 控制 多 个 处 理 单元 对 各 自 的 数据 进行 相同 的 运算 和 操作 的 ,所 以 又 称 为 SIMD 计算 机 。 
它 有 时 还 被 称 为 并 行 处 理 机 。 


13.1 阵列 处 理 机 的 操作 模型 和 特点 


1. 阵列 处 理 机 的 操作 模型 

阵列 处 理 机 的 操作 模型 如 图 13. 1 所 示 。 它 是 用 一 个 控制 部 件 (CU) 同 时 管理 多 个 处 理 
单元 (PE) 的 。CU 对 指令 进行 译 码 , 并 把 指令 播送 到 各 处 理 单元 。 所 有 处 理 单元 均 被 动 地 
接收 并 执行 从 控制 部 件 广播 来 的 同一 条 指令 ,但 它们 所 操作 的 对 象 却 是 不 同 的 数据 。 


控制 部 件 (CU) 
PE) PE2 PE; PE, 
处 理 处 理 处 理 .. 处 理 
单元 1 单元 2 单元 3 单元 n 
互连网 络 
图 13.1 阵列 处 理 机 的 操作 模型 


阵列 处 理 机 的 操作 模型 可 用 5 元 组 表示 
阵列 处 理 机 = C(N:C,T,M,R) 
其 中 ， 
(1) N 为 机 器 的 处 理 单元 (PE) 数 。 例 如 llliac 人 计算 机 有 64 个 PE, 而 MP-1 计算 机 有 
16 384 个 PE。 
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(2) C 为 控制 部 件 CU 直接 执行 的 指令 集 , 包 括 标量 指令 和 程序 流 控 制 指令 。 

(3) I 为 由 CU 广播 至 所 有 PE 进行 并 行 执行 的 指令 集 , 包 括 算术 运算 、 人 逻辑 运算 数据 
寻 径 ,屏蔽 以 及 其 他 由 每 个 PE 对 它 的 数据 所 执行 的 局 部 操作 。 

(4) M 为 屏蔽 方案 集 , 其 中 每 种 屏蔽 将 所 有 PE 划分 成 允许 操作 和 禁止 操作 两 种 工作 
模式 。 

(5) R 为 数据 寻 径 功能 集 ,说明 互连网 络 中 PE 间 通 信和 所 需要 的 各 种 设置 模式 。 

可 以 用 上 述 5 元 组 模型 来 描述 一 台 具 体 的 阵列 处 理 机 。 例 如 ,MasPar MP-1 计算 机 的 
操作 特性 如 下 : 

(1) MP-1 是 一 种 SIMD 机 器 ,其 PE 数 N 王 1024 一 16 384。 

(2) CU 执行 标量 指令 ,将 译 码 后 的 向 量 指令 广播 到 PE 阵列 ,并 控制 PE 间 的 通信 。 

(3) 每 个 PE 都 是 RISC 处 理 机 ,能 执行 不 同 数据 的 整数 运算 和 标准 浮 点 运算 。PE 从 
CU 接收 指令 。 

(4) 屏蔽 方案 设 在 每 个 PE 中 ,并 由 CU 连续 监控 , 它 能 在 运行 时 动态 地 使 每 个 PE 处 
于 工作 或 禁止 状态 。 

(5) MP-1 有 一 个 X-Net 网 格 网 络 和 一 个 全 局 多 级 交叉 开关 寻 径 器 ,以 实现 CU-PE 之 
间 、X-Net 的 8 个 近邻 和 全 局 寻 径 器 的 通信 。 

2. 阵列 处 理 机 的 特点 

第 4 章 介绍 了 流水 向 量 处理 机 。 向 量 处 理 机 和 阵列 处 理 机 都 能 对 大 量 数据 进行 向 量 处 
理 , 但 它们 之 间 有 很 大 的 区 别 。 阵 列 处 理 机 的 特点 为 ， 

(1) 阵列 机 是 以 单 指令 流 多 数据 流 方式 工作 的 。 

(2) 阵列 机 是 通过 设置 多 个 相同 的 处 理 单元 来 开发 并 行 性 的 , 它 利 用 并 行 性 中 的 同时 
性 ,而 不 是 并 发 性 。 所 有 处 理 单元 必须 同时 进行 相同 的 操作 。 这 与 利用 时 间 重 县 的 向 量 流 
水 处 理 机 是 不 一 样 的 。 

(3) 阵列 机 是 以 某 一 类 算法 为 背景 的 专用 计算 机 。 这 是 因为 阵列 机 中 通常 都 采用 简 
单 、 规 整 的 互连网 络 来 实现 处 理 单元 间 的 连接 操作 ,从 而 限定 了 它 所 适用 的 求解 算法 类 别 。 

(4) 阵列 机 的 研究 必须 与 并 行 算法 的 研究 密切 结合 ,以 便 能 充分 发 挥 它 的 处 理 能 力 。 

(5) 阵列 机 的 控制 器 实质 上 是 一 台 标 量 处 理 机 ,而 为 了 完成 1/O 操作 以 及 操作 系统 的 
管理 , 尚 需 一 个 前 端 机 。 因 此 实际 的 阵列 机 系统 是 由 上 述 三 部 分 构成 的 一 个 异 构 型 多 处 理 
机 系统 。 


13.2 阵列 处 理 机 的 基本 结构 


13.2.1 分 布 式 存储 器 的 阵列 机 


分 布 式 存储 器 的 阵列 机 结构 如 图 13. 2 所 示 。 它 含有 多 个 相同 的 处 理 单元 (PE) ,每 个 
PE 有 各 自 的 本 地 存储 器 (LM)。PE 之 间 通 过 数据 寻 径 网 络 以 一 定 方式 互相 连接 。 它 们 在 
阵列 控制 部 件 的 统一 指挥 下 ,实现 并 行 操作 。 由 于 通过 控制 部 件 的 是 单 指令 流 , 所 以 指令 的 
执行 顺序 还 是 和 单 处 理 机 一 样 ,基本 上 是 串 行进 行 的 。 程 序 和 数据 是 通过 主机 装 入 控制 存 
储 器 的 。 
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指令 送 到 控制 部 件 进行 译 码 。 如 果 是 标量 指令 , 则 直接 由 标量 处 理 机 执行 。 如 果 是 向 
量 指令 , 则 阵列 控制 部 件 通过 广播 总 线 将 它 广播 到 所 有 PE 中 去 并 行 地 执行 。 

执行 程序 所 需 的 数据 集 经 划分 后 通过 数据 总 线 分 布 存 放 到 各 PE 的 本 地 存储 器 (LM)。 
各 PE 之 间 通 过 数据 寻 径 网 络 互 连 ,实现 PE 间 的 通信 ,如 移 数 、 置 换 和 其 他 寻 径 操作 。 控 制 
部 件 通 过 执行 程序 来 控制 数据 寻 径 网 络 。 

PE 的 同步 是 在 控制 部 件 的 控制 下 由 硬件 实现 的 。 可 以 做 到 让 所 有 PE 在 同一 个 周期 
执行 同一 条 指令 ,也 可 以 做 到 通过 采用 屏蔽 逻辑 来 控制 某 些 PE 在 指定 的 指令 周期 是 否 参 
与 执行 。llliac 凡是 这 种 结构 的 SIMD 阵列 处 理 机 . 它 由 64 个 带 本 地 存储 器 的 PE 组 成 ,PE 
间 通 过 8X8 环绕 连接 网 络 实现 互 连 。 


你 最多 再 机 天 窜 量 站 全 可 
标量 指令 
网 络 控制 “「 际 列 近 和 控制 在 傅 吕 全 本 
六 一 一 部 作 。 卜 本 S | (程序 和 数据 3 Vo) 
向 量 指令 


广播 总 线 


数据 总 线 


PE : 处 理 单元 
LM : 本 地 存储 器 


已 二 二 二 二 数据 寻 径 网 络 


图 13.2 分 布 式 存储 器 的 阵列 处 理 机 结构 


目前 生产 的 阵列 处 理 机 几乎 都 是 基于 分 布 式 存储 器 结构 的 。 各 种 阵列 处 理 机 的 主要 差 
别 在 于 数据 寻 径 网 络 的 不 同 。llliac 人 中 的 4- 邻 连接 网 络 结构 在 过 去 是 最 常用 的 一 种 。 而 
CM-2 实现 的 租 在 网 格 中 的 超 立 方 体 以 及 MasPar MP-1 实现 的 X-Net 加 多 级 交叉 开关 寻 
径 器 都 是 由 网 格 演变 而 来 的 。 


13.2.2 共享 存储 器 的 阵列 机 


共享 存储 器 的 阵列 处 理 机 结构 如 图 13. 3 所 示 。 这 是 集中 设置 存储 器 的 一 种 方案 。 共 
享 的 多 体 并 行 存储 器 (SM) 通 过 对 准 网 络 与 各 处 理 单元 (PE) 相 连 。 存 储 模块 的 数目 等 于 或 
略 大 于 处 理 单元 的 数目 。 为 了 减少 存储 器 访问 冲突 ,必须 将 数据 合理 地 分 配 到 各 存储 器 模 
块 中 。 通 过 灵活 高 速 的 对 准 网 络 , 使 得 在 大 多 数 向 量 运算 中 ,存储 器 与 处 理 单元 之 间 的 数据 
传送 都 能 以 存储 器 的 最 高 带宽 进行 。 这 种 共享 存储 器 模块 在 处 理 单元 数目 不 太 多 的 情况 下 
是 很 理想 的 。 例 如 美国 宝来 公司 的 BSP(Burroughs Scienticfic Processor) 计 算 机 就 采用 了 
这 种 结构 。16 个 PE 通过 一 个 16X17 的 对 准 网 络 访问 17 个 共享 存储 器 模块 。 存 储 器 模块 
数 与 PE 个 数 是 互 质 的 ,可 以 实现 无 冲突 并 行 访问 存储 器 。 从 图 13. 3 中 看 出 ,互连网 络 是 
共享 存储 器 (SM) 和 处 理 单元 (PE) 之 间 的 必由之路 。 

所 有 阵列 指令 都 必须 使 用 长 度 为 n 的 向 量 操 作 数 .其 中 双 为 PE 的 个 数 。SIMD 指令 与 
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流水 向 量 处 理 机 的 指令 类 似 ,不 同 之 处 是 用 多 个 PE 的 空间 并 行 性 代替 了 流水 线 的 时 间 并 
上 述 阵列 处 理 机 的 所 有 1/O 操作 都 是 由 主机 处 理 的 。 在 主机 和 阵列 控制 部 件 之 间 有 
一 个 专用 的 控制 存储 器 ,用 于 存放 程序 和 数据 。 
在 启动 程序 之 前 ,把 划分 好 的 数据 集 分 布 到 共享 存储 器 模块 。 主 机 管理 大 容量 存储 器 
和 计算 结果 的 图 形 显示 。 在 控制 部 件 的 协调 下 ,标量 处 理 机 与 PE 阵列 并 发 地 进行 运算 。 


大 容量 
存储 器 
一 一 | ”控制 存储 器 。 | 标量 指令 
| 一 | 标量 处 理 机 
主机 | 隆 列 控制 部 件 
WO( 用 户 ) 一 1 
| 1 广播 总 线 (向 量 指令 ) | 
控制 PE, PE, 过 PE, 
| 1 
:一 对 准 网 络 
SMI SM “ SMw 
数据 总 线 


图 13.3 共享 存储 器 的 阵列 处 理 机 结构 


13.3 阵列 处 理 机 实例 


13.3.1 实例 1: Illiac 及 阵列 处 理 机 


Illiac MN 阵列 处 理 机 是 美国 宝来 公司 和 伊利 诺 依 大 学 合作 研制 生产 的 机 器 , 它 于 1972 
年 问世 ,是 最 早 的 阵列 处 理 机 。 

Illiac 系统 的 总 框图 如 图 13.4 所 示 。 这 实际 上 是 一 个 由 三 种 类 型 的 处 理 机 联合 组 成 
的 多 机 系统 。 这 三 个 处 理 机 是 : 

(1) 专门 用 于 数组 运算 的 处 理 单 元 阵列 。 

(2) 阵列 控制 器 (CU) , 它 既 是 处 理 单 元 阵列 的 控制 部 分 ,又 可 以 看 作 一 台 相 对 独立 的 
小 型 标量 处 理 机 。 

(3) 一 台 标准 的 B6700 计算 机 ,担负 Tlliac 输入 输出 系统 和 操作 系统 管理 功能 。 

1. Iliac 阵列 

Illiac 阵列 由 64 个 处 理 单元 (PE)、64 个 本 地 存储 器 (PEM) 和 存储 器 逻辑 部 件 
(MLU) 组 成 。 把 每 个 PE 和 PEM 对 看 成 一 个 处 理 部 件 (PU), 则 这 个 阵列 的 64 个 处 理 部 
件 PU。 一 PUss 排 列 成 一 个 8X8 方 阵 , 如 图 13. 5(a) 所 示 。 每 一 个 PU; 只 和 其 左 、 右 、 上 、 下 
的 4 个 近邻 PU;_1(mod 64) .PUiii1(mod 64) 、.PU;_s (mod 64) 、PU;;s (mod 64) 直 接连 接 , 如 
图 13.5(b) 所 示 。 按 此 规则 ,上 下 方向 上 同一 列 的 PU 相互 连接 成 一 个 环 ,左右 方向 上 每 一 
行 右 端的 PU 与 下 一 行 左 端的 PU 相连 ,并 且 最 下 面 一 行 右 端的 PU 与 最 上 面 一 行 左 端的 
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B6700 
计算 机 
控制 描述 字 48 
控制 器 
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图 13.4 llliac 系统 总 框图 


PU 相连 ,从 而 构成 了 一 个 闭合 的 螺 线 形状 。 因 此 ,Illiac W 的 阵列 结构 又 称 为 闭合 螺 线 阵 
列 。 这 种 连接 方式 既 便于 一 维 长 向 量 ( 多 至 64 个 元 素 ) 的 处 理 , 又 便于 二 维 数组 运算 ,以 缩 
短处 理 单元 之 间 的 路 径 距 离 。 步 距 不 等 于 士 1 或 士 8 的 任意 处 理 单元 间 的 通信 可 用 软件 方 
法 寻找 最 短路 径 , 其 最 短 距离 都 不 会 超过 7 步 。 例 如 ,从 PUw 到 PUse 的 距离 以 下 列 路 径 为 
最 短 : PUlo 一 PUs 一 PUs 一 PU。—>PU6s PUss >PUs,—>PU,e。 

PUse PUs; PUGs 


| | 


PUe 一 = PU = PU， 上 -一 … 一 -一 PU， 上 ~- 一 PU， 


PUj—=| PUs | 一 PU, i 一 -一 PUs PUG 


PUs 一 =| PU | Pu i a) PUs -PuUv 


PU. 1 上 


(9) (b) 
图 13.5 llliac KW 处 理 部 件 的 连接 


推广 到 一 般 情 况 ,nXn 个 单元 组 成 的 阵列 中 ,任意 两 个 处 理 单 元 之 间 的 最 短 距 离 不 会 
超过 (n 一 1) 步 。 

每 个 处 理 单元 有 6 个 可 编程 序 寄存 器 : 64 位 字 长 的 累加 器 RGA ,64 位 字 长 的 操作 数 
寄存 器 RGB,64 位 字 长 的 数据 路 由 寄存 器 RGR ,64 位 字 长 的 通用 寄存 器 RGS( 可 被 程序 用 
来 暂 存 中 间 结 果 ) ,16 位 的 变 址 寄存 器 ,8 位 的 模式 寄存 器 (存放 PE 屏蔽 信息 以 及 状态 位 ) 。 
其 运算 部 件 有 : 加 / 乘 算术 单元 、 人 逻辑 单元 、 移 位 单元 和 地 址 加 法 器 等 。 操 作 数 来 源 有 : 
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ODPE 本 身 的 寄存 器 .@PEM.@CU 的 公共 数据 总 线 .PE 的 4 个 近邻。 2 
处 理 单元 对 数组 进行 运算 处 理 时 ,可 对 64 位 ,32 位 8 位 操作 数 进行 多 种 算术 和 好 辑 损 | 训 


作 。64 个 处 理 单元 的 硬件 可 当 作 64 个 (64 位 )、128 个 (32 位 ) 或 512 个 (8 位) 处 理 单元 发 
挥 作用 。 并 行 的 加 法 速度 是 每 秒 108 次 8 位 定点 加 法 或 1. 5X10 次 64 位 浮 点 加 法 。 

每 一 个 处 理 单元 都 有 一 个 自己 的 本 地 存储 器 (PEM)。64 个 PEM 联合 组 成 阵列 存储 
器 ,存放 数据 和 指令 。 整 个 阵列 存储 器 可 以 接收 控制 器 的 访问 , 读 出 8 个 字 的 信息 到 它 的 缓 
冲 器 中 ,也 可 经 过 1024 位 的 总 线 与 I/O 开关 相连 。 但 是 每 一 个 处 理 单元 只 能 访问 自己 的 本 
地 存储 器 PEM。 分 布 在 各 PEM 中 的 公共 数据 只 能 在 读 出 到 控制 单元 (CU) 后 ,再 经 公共 数 
据 总 线 广播 到 64 个 处 理 单元 中 。 这 不 但 节省 了 存储 空间 ,而 且 人 允许 公共 数据 的 存 取 与 其 他 
操作 在 时 间 上 重 又 。 这 样 , 阵 列 存 储 器 就 如 同一 个 二 维 访问 的 存储 器 。 

PE 和 PEM 之 间 经 过 存储 器 逻辑 部 件 MLU 相连 , 它 包含 存储 器 信息 寄存 器 和 有 关 的 
控制 逻辑 电路 ,以 实现 PEM 分 别 到 PE、CU 以 及 1/O 之 间 的 信息 传送 。 

2. 阵列 控制 器 

阵列 控制 器 CU 实际 上 是 一 台 小 型 计算 机 。 它 除了 对 阵列 的 处 理 单元 进行 控制 以 外 ， 
还 能 利用 本 身 的 内 部 资源 执行 一 整套 指令 ,以 完成 标量 操作 。 而 且 这 些 操作 可 以 与 各 PE 
的 数组 操作 并 行进 行 。 

阵列 控制 器 的 功能 如 下 : 

(1) 对 指令 流 进行 控制 和 译 码 , 包 括 执行 一 整套 标量 指令 ; 

(2) 向 各 处 理 单元 发 出 执行 数组 操作 指令 所 需 的 控制 信和 号; 

(3) 产生 并 向 所 有 处 理 单元 广播 公共 的 地 址 部 分 ; 

(4) 产生 并 向 所 有 处 理 单元 广播 公共 的 数据 部 分 ; 

(5) 接收 和 处 理由 各 PE 计算 出 错 、 系 统 IO 操作 以 及 B6700 所 产生 的 陷阱 中 断 信号 。 

阵列 控制 器 CU 与 处 理 单元 之 间 的 信息 联系 如 图 13.4 所 示 , 共 有 以 下 4 条 信息 通路 : 

1) CU 总 线 

本 地 存储 器 (PEM) 经 过 CU 总 线 把 指令 和 数据 送 往 阵 列 控制 器 ,以 8 个 64 位 字 作 为 一 
个 信息 块 。 此 处 的 指令 是 指 分 布 存放 在 阵列 存储 器 中 的 用 户 程 序 指令 ;而 数据 则 是 处 理 所 
需 的 公共 数据 , 先 将 它们 传送 到 CU ,再 利用 CU 的 广播 功能 传送 到 各 处 理 单元 。 

2) 公共 数据 总 线 

这 是 64 位 的 总 线 , 用 作 向 64 个 处 理 单元 同时 广播 公共 数据 的 通路 。 例 如 ,作为 公共 乘 
数 的 常数 就 不 必 在 64 个 PEM 中 重复 存放 ,可 以 由 CU 的 某 一 个 寄存 器 送 往 各 处 理 单元 。 
此 外 ,指令 的 操作 数 和 地 址 部 分 也 要 经 过 CDB 传送 。 

3) 模式 位 线 

每 一 个 处 理 单元 都 可 以 经 过 模式 位 线 把 它 的 “模式 寄存 器 ”中 的 状态 信息 传送 给 CU， 
送 来 的 信息 中 也 包括 该 处 理 单元 的 “活动 ”状态 位 。 只 有 那些 处 于 “活动 ”状态 的 处 理 单元 才 
执行 单 指令 流 所 规定 的 公共 操作 。 从 64 个 处 理 单元 送 往 CU 的 模式 位 在 CU 的 累加 寄存 
器 中 拼 成 一 个 模式 字 , 以 便 在 CU 内 部 执行 一 定 的 测试 指令 ,对 此 模式 字 进 行 测试 , 并 根据 
测试 结果 进行 程序 转移 。 

4) 指令 控制 线 

指令 控制 线 大 约 有 200 根 ,包括 处 理 单元 微 操作 控制 信和 号、 处 理 单元 存储 器 地 址 信号 和 
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读 / 写 控制 信号 ,由 CU 发 送 给 处 理 单元 (PE) 和 存储 器 逻辑 部 件 (MLU)。 

3. 输入 输出 系统 

Illiac 人 输入 输出 系统 由 磁盘 文件 系统 (DFS) ,1/O 分 系统 和 B6700 管理 计算 机 组 成 。 

磁盘 文件 系统 (DFS) 是 两 套 大 容量 并 行 读 写 磁盘 系统 及 其 相应 的 控制 器 。 每 套 有 13 
台 磁盘 机 ,总 容量 为 10? 位 ;每 台 磁 盘 机 有 128 道 , 每 道 一 个 磁头 ,并 行 读 写 ,数据 宽度 为 256 
位 ,最 大 传输 率 为 5.02X10sb/s; 平 均等 待 时 间 为 19. 6ms。 如 果 两 个 通道 同时 发 送 或 接收 
数据 , 则 数据 宽度 为 512 位 ,最 大 传输 率 为 10?b/s。 

1/O 系统 包括 三 部 分 : 输入 输出 开关 (IOS) ,控制 描述 字 控 制 器 (CDC) .输入 输出 缓冲 
存储 器 (BIOM) 。 

1) IOS 

IOS 的 功能 有 两 个 。 一 是 作为 一 个 开关 ,把 DFS 或 可 能 连 上 的 实时 装置 转 接 到 阵列 存 
储 器 ,进行 大 批 数 据 的 1/O 传送 ;二 是 作为 DFS 和 PEM 之 间 的 缓冲 ,以 平衡 两 边 不 同 的 数 
据 宽度 。 

2 OBE 

CDC 的 功能 是 对 阵列 控制 器 CU 的 W/O 请 求 进行 管理 。 当 CU 发 出 1/O 请 求 时 ,CDC 
将 使 B6700 计算 机 中 断 , 由 它 设 法 响应 1/0O 请 求 ,并 通过 CDC 给 CU 送 回 相应 的 响应 代码 ， 
在 CU 中 设置 好 必需 的 控制 状态 字 。 然 后 ,CDC 促使 B6700 启动 PEM 的 加 载 过 程 ,由 DFS 
向 PEM 送 入 程序 和 数据 。 在 PEM 加 载 完毕 后 ,又 由 CDC 向 CU 传送 控制 信和 号 ,使 它 开 始 
执行 llliac K 的 程序 。 

3) BIOM 

BIOM 处 在 DFS 和 B6700 之 间 , 是 为 了 取得 两 者 之 间 传 送 带 宽 上 的 匹配 。 

4. B6700 管理 计算 机 

B6700 的 作用 是 : 管理 全 部 系统 资源 ,完成 用 户 程序 的 编译 或 汇编 ,为 Illiac KW 进行 作 
业 调 度 .存储 分 配 ,产生 1/O 控制 描述 字 送 至 CDC .处理 中 断 、 提 供 操作 系统 所 具备 的 其 他 
服务 等 。 


13.3.2 实例 2: BSP 计算 机 


BSP 计算 机 是 由 美国 宝来 公司 和 伊利 诺 依 大 学 于 1979 年 制造 的 。 它 是 共享 存储 器 结 
构 的 SIMD 计算 机 的 典型 代表 。 其 最 高 处 理性 能 为 每 秒 5 千 万 次 浮 点 运算 。 

BSP 采用 了 全 面 的 并 行 化 措施 。 它 不 是 依靠 提高 时 钟 周 期 频率 来 提高 性 能 的 ,而 是 依 
靠 并 行 性 。 它 的 处 理 器 和 存储 器 的 时 钟 周期 都 是 160ns, 其 时 钟 频率 在 巨型 计算 机 中 是 比 
较 低 的 ,但 它 依靠 重复 设置 的 16 个 处 理 单元 , 仍 能 获得 与 Cray-1 流水 线 处 理 机 相当 的 向 量 
处 理 速度 。 

BSP 计算 机 系统 的 框图 如 图 13.6 所 示 。 可 以 看 出 ,BSP 不 是 一 台独 立 运行 的 计算 机 ， 
而 是 附属 于 系统 管理 计算 机 B7700/B7800 的 后 端 处 理 机 。BSP 承担 主要 的 计算 任务 ,而 系 
统管 理 机 则 负责 进行 BSP 程序 的 向 量化 编译 和 连接 、 与 远程 终端 及 网 络 的 数据 通信 、 外 围 
设备 管理 等 ,大 多 数 的 BSP 作业 调度 和 操作 系统 活动 也 是 在 系统 管理 机 上 完成 的 。 

BSP 计算 机 由 三 部 分 构成 : 控制 处 理 机 ,并 行 处 理 机 ,文件 存储 器 。 
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文件 存储 器 系统 


程序 和 数据 
0 文件 存储 器 CCD 


1 
1 
1 
一 | 4-64M 字 
1 
1 
1 
1 
1 


文件 存储 器 控制 器 


开行 处 理 机 
并 行 存储 器 
0.5~8M 字 

oovsm 


系统 管理 机 ! 
1 
1 
外 
1 
| 
入 口 和 出 口 | 
| 
1 
1 
1 
1 
1 
1 


B7700/B7800 


| 对 准 网 络 
jioov 字 种 全 
[一 | 16 个 算术 单元 


图 13.6 BSP 计算 机 系统 框图 


1. BSP 处 理 机 

1) 并 行 处 理 机 

并 行 处 理 机 包含 16 个 算术 单元 (AE) .由 17 个 存储 体 组 成 的 一 个 无 冲突 访问 的 并 行 存 
储 器 和 两 套 对 准 网 络 ( 分 别 为 人口 和 出 口 对 准 网 络 )。 它 们 形成 了 一 条 5 级 的 数据 流水 线 ， 
如 图 13.7 所 示 ,5 级 的 功能 依次 是 : 


17 个 存储 体 


对 准 网 络 


图 13.7 BSP 的 5 级 数据 流水 线 结构 示意 图 


Q@ 从 17 个 存储 器 输出 端口 并 行 读 出 16 个 操作 数 ; 

@ 经 对 准 网 络 NW 将 16 个 操作 数 重新 排列 ,形成 16 个 算术 单元 所 需要 的 顺序 ; 

@ 将 排列 好 的 16 个 操作 数 送 到 16 个 算术 单元 进行 处 理 ; 

@ 所 得 的 16 个 结果 经 对 准 网 络 NW 重新 排列 成 在 17 个 存储 体 中 存储 所 需要 的 
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次 序 ; 

@ 写 人 并 行 存储 器 。 

该 流水 线 使 连续 几 条 向 量 指令 能 在 时 间 上 重 又 起 来 执行 。 

两 套 对 准 网 络 的 作用 分 别 是 在 读 或 写 并 行 存储 器 时 .使 并 行 存储 器 中 为 保证 无 冲突 访 
问 而 错开 存放 的 操作 数 顺序 能 够 与 算术 单元 并 行 处 理 所 要 求 的 正常 顺序 协调 一 致 。 整 个 流 
水 线 由 统一 的 指令 译 码 和 控制 部 件 进行 控制 。 

这 种 流水 线 对 提高 系统 处 理 效 率 有 很 大 的 作用 。 第 一 ,有 效 地 实现 了 处 理 单元 ,存储 器 
和 互连网 络 在 时 间 上 重 共 工作 ,在 理想 情况 下 能 取得 带宽 的 完全 匹配 。 第 二 ,可 把 大 于 16 
的 任意 长 度 的 向 量 按 16 个 分 量 的 标准 长 度 分 为 若干 段 ,依次 在 时 间 上 重 又 起 来 进行 处 理 。 
第 三 ,实现 不 同 向 量 指令 的 重 肥 执行 。 

进行 向 量 运算 的 数据 保存 在 由 17 个 存储 体 组 成 的 并 行 存 储 器 中 ,每 个 存储 体 的 容量 可 
达 512K 字 ,存储 周期 为 160ns。17 个 存储 体 组 成 一 个 无 冲突 访问 存储 器 , 它 允 许 对 任意 长 
度 以 及 跳 距 不 是 17 的 倍数 的 向 量 实现 无 冲突 存 取 。 

对 准 网 络 包含 完全 交叉 开关 以 及 用 来 实现 数据 从 一 个 源 广 播 至 几 个 目的 地 的 硬件 ,还 
包含 当 几 个 源 寻 找 同 一 个 目的 地 时 能 分 解 冲突 的 硬件 。 在 算术 单元 阵列 和 并 行 存储 器 的 存 
储 体 之 间 具 备 通用 的 互 连 特性 ,而 存储 体 和 对 准 网 络 的 组 合 功能 则 提供 了 并 行 存储 器 无 冲 
突 访问 的 能 力 。 

2) 控制 处 理 机 

控制 处 理 机 除了 用 以 控制 并 行 处 理 机 之 外 ,还 提供 了 与 系统 管理 机 相连 的 接口 。 其 中 
的 标量 处 理 单元 用 来 处 理 存储 在 指令 /控制 存储 器 中 的 全 部 操作 系统 和 用 户 程序 指令 。 它 
以 12MHz 的 时 钟 频率 执行 用 户 程序 中 的 串 行 或 标量 运算 部 分 。 全 部 的 向 量 指令 以 及 某 些 
成 组 运算 的 标量 指令 被 送 给 并 行 处 理 机 控制 器 。 在 经 过 合格 性 检查 之 后 ,并 行 处 理 机 控制 
器 将 指令 转换 为 微 操作 序列 去 控制 16 个 AE 操作 。 指 令 / 控 制 存储 器 的 容量 为 256K 字 ， 
存储 周期 为 160ns, 字 长 为 56 位 ,其 中 8 位 是 校 验 位 ,提供 单 错 校正 和 双 错 检测 的 能 力 。 控 
制 维护 单元 是 系统 管理 机 与 控制 处 理 机 的 接口 ,用 来 对 控制 处 理 机 进行 初始 化 以 及 监控 命 
令 的 通信 和 维护 。 

3) 文件 存储 器 

文件 存储 器 是 一 个 半导体 辅助 存储 器 。BSP 的 计算 任务 文件 由 BSP 的 系统 管理 机 加 
载 到 文件 存储 器 中 ,由 文件 存储 器 控制 器 对 这 些 任务 进行 排队 ,由 BSP 的 控制 处 理 机 对 这 
些 任务 按 序 执行 。 文 件 存储 器 是 BSP 直接 控制 下 的 唯一 外 围 设备 .其 他 的 外 围 设备 都 是 由 
系统 管理 机 来 控制 的 。BSP 程序 执行 过 程 中 所 产生 的 暂 存 文 件 和 输出 文件 都 是 先 存放 在 
文件 存储 器 中 ,然后 才 被 送 给 系统 管理 机 ,输出 给 用 户 的 。 文 件 存储 器 的 数据 传输 率 较 高 ， 
大 大 缓解 了 I/O 受 限 问题 。 

2. BSP 并 行 存储 器 

BSP 并 行 存储 器 由 17 个 存储 体 组 成 。16 个 算术 单元 (AE) 在 每 个 存储 周期 对 并 行 存 
储 器 存 / 取 16 个 字 。16 个 AE 执行 一 次 浮 点 加 / 减 /乘法 运算 需要 32 个 操作 数 , 从 并 行 存 
储 器 中 获得 这 些 数据 需要 两 个 周期 ,而 算术 单元 的 浮 点 加 、 减 、 乘 运算 都 能 在 两 个 周期 内 完 
成 。 因 此 ,并 行 存储 器 的 带宽 同 算术 单元 的 浮 点 运算 的 带宽 保持 完全 平衡 ,从 而 可 将 并 行 存 
储 器 的 存 取 操 作 同 16 个 算术 单元 的 运算 操作 按时 间 重 又 进 行 流水 处 理 。 
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BSP 并 行 存储 器 的 一 个 独特 性 能 是 它 可 以 实现 无 冲突 访问 。 对 于 数组 , 它 可 以 按 行 、 1 
列 . 对 角 线 等 进行 访问 而 不 会 产生 冲突 。 实 现 无 冲突 访问 的 硬件 支持 包括 质数 个 存储 舌 端 | 到 


口 ( 存 储 体 数 是 质数 17) ,存储 端口 和 AE 之 间 的 交叉 开关 (对 准 网 络 ) ,以 及 特殊 的 存储 器 
地 址 生成 机 构 。 

现在 来 讨论 一 台 含 N 个 AE 和 M 个 存储 体 的 类 BSP 机 的 情况 。BSP 的 地 址 映像 规则 
是 : 先 将 二 维 数组 按 列 优先 或 者 按 行 优先 的 顺序 变换 为 一 维 数组 ,以 形成 一 个 一 维 线性 地 
址 空间 ,地 址 用 A 表示 。 然 后 将 地 址 A 变换 成 并 行 存储 器 地 址 (i,j) ,其 中 j 是 存储 体 体 


号 ,j 一 ACmod MD si 是 在 相应 存储 体内 的 地 址 ,i 一 | 向 |。 存储 体 的 个 数 M 是 一 个 质数 。 


为 了 进一步 说 明 BSP 并 行 存储 器 的 地 址 变换 和 无 冲突 访问 ,下 面 来 看 一 个 比较 简单 的 
例子 。 
设 并 行 存储 器 的 体 数 M 二 7( 质 数 ) ,运算 单元 数 N 一 6。 考 虑 下 述 4X5 的 数组 : 


U30 Ud31 U32 (433 U34 
按 上 述 地 址 映像 规则 ,这 个 4X5 二 维 数组 在 M=7、N=6 的 并 行 存储 器 中 存储 的 情况 
如 图 13. 8 所 示 。 


qs | ao 14 | 024 | 034 


数组 元 素 aoo | Qio | 420 | Go 团团 四 团丁 a2 2 S21 A | 0 | 0 


线性 地 址 4 0 1 2 3 4 5 6 7 8 9 10 1 12 13 14 15 16 17 18 19 
体 号 7 0 1 2 3 #44560 12 3 4 5 6 0 1 2 3 4 5 
体内 地 址 0 0 0 0 0 0 1 1 1 1 1 1 2 2 22 2 2 3 3 
存储 体 号 j 
4 5 6 
4 5 
30 Aol all 
11 6 
a. Ga GD1 
12 |13 
ala 03 al3 
18 |19 |20 
24 a34 
25 |26 |27 


图 13.8 4X5 二 维 数组 在 BSP 并 行 存储 器 中 的 存储 示意 图 (M==7、N=6) 


由 图 13. 8 可 知 , 当 对 数组 的 同一 行 、 同 一 列 、 主 对 角 线 .次 对 角 线 的 元 素 并 行 地 读 取 时 
都 不 会 发 生 访问 存储 体 的 冲突 ,因为 它们 在 不 同 的 存储 体 中 。 

BSP 有 16 个 算术 单元 , 即 N=16 ,存储 体 数 M=17, 因 此 ,并 行 存储 器 的 每 个 访问 周期 
中 总 有 一 个 存储 体 未 被 利用 ,使 得 并 行 存储 器 的 空间 利用 率 和 存储 器 带宽 都 浪费 了 1/17， 
但 是 这 种 损失 却 换 来 了 对 存储 器 的 无 冲突 访问 。 
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13.4 阵列 处 理 机 的 并 行 算法 举例 


下 面 以 Iliac K 为 例 , 讨 论 阵 列 处 理 机 的 算法 。 
1. 有 限 差分 问题 
有 限 差分 方法 是 求解 场 方程 的 一 种 有 效 方 法 。 它 把 一 个 有 规则 的 网 格 覆盖 在 整个 场 域 
上 ,用 网 格 点 上 的 变量 值 写 出 差分 方程 组 以 代替 场 方程 来 进行 计算 。 我 们 来 看 看 描述 平面 
场 的 拉 普 拉 斯 方程 。 
Gu ,9U 
az ay: 


0 (13.1) 
将 二 阶 偏 导数 表示 为 差分 形式 。 


BU __ UC(z+i+h,y)—2U(z,y) +U(z—h,y) 
EE hz 
aU U(x,y+h)—2U(z,y) + Uz,y—h) (13.2) 
A9y’ 人 
代入 原 方程 , 则 可 得 有 限 差分 计算 公式 。 
这 &zyj 区 三 U(zh,y)+U(z,y+h) 本 人 十 U(x,y—h) (13.3) 


式 中 ,(x,y) 为 平面 网 格 点 坐标 ,h 为 网 格 间距 。 

llliac 的 阵列 结构 特别 适用 于 计算 这 种 在 网 格 上 定义 的 有 限 差分 函数 。 根 据 
式 (13.3), 任 一 网 格 点 (zx,y) 上 的 函数 值 可 由 其 四 周 邻 近 点 的 函数 值 计算 出 来 ,而 阵列 处 理 
机 中 的 每 一 处 理 单元 都 与 其 4 个 近邻 点 有 直接 的 连接 ,正好 相互 匹配 。 每 一 网 格 点 上 的 函 
数值 用 求 其 四 周 邻 近 点 的 平均 值 的 方法 计算 ,经 多 次 迭代 ,逐次 允 近 其 最 终 的 平均 值 。 

差分 网 格 边缘 的 函数 值 是 已 知 的 ,由 场 域 的 边界 条 件 决定 ;而 对 于 内 部 各 点 的 函数 值 ， 
开始 时 可 选择 为 零 , 然 后 根据 式 (13. 3) 多 次 迭代 求 U(x,y) 的 值 ,直至 连续 两 次 迭代 所 求 值 
的 差 小 于 规定 误差 为 止 。 

显然 ,差分 法 求解 的 精度 与 网 格 间 距 有 直接 的 关系 ,网 格 越 小 ,精度 越 高 ,但 求解 所 花费 
的 时 空 开 销 也 越 大 。 

llliac 在 计算 时 ,是 把 内 部 网 格 点 分 配给 各 个 处 理 单元 的 。 因 此 ,上 述 计算 过 程 可 以 
并 行 地 完成 ,从 而 大 幅度 地 提高 处 理 速度 。 由 于 实际 问题 所 遇 到 的 内 部 网 格 点 数目 往往 是 
很 大 的 ,因此 需要 将 其 分 成 许多 子 网 络 ,才能 在 Illiac 上 求解 。 

2. 矩阵 加 

在 阵列 处 理 机 上 解决 矩阵 加 法 问题 是 最 简单 的 一 维 情况 。 考 虑 两 个 8X8 的 矩阵 4 和 
B 的 相 加 ,所 得 结果 矩阵 C 也 是 一 个 8X8 的 矩阵 。 把 A、B、C 中 位 于 相应 位 置 的 分 量 存放 
在 同一 PEM 内 ,假设 A 的 分 量 在 全 部 64 个 PEM 中 存放 的 单元 地 址 都 是 a,B 的 全 部 分 量 
的 地 址 都 是 a 十 1,C 的 全 部 分 量 的 地 址 都 是 a 十 2, 如 图 13. 9 所 示 。 这 样 ,只 需 用 下 列 三 条 
Illiac 的 汇编 指令 就 可 以 实现 矩阵 相 加 。 

Im APR ;全 部 A 的 分 量 由 BMi 送 FEi 的 累加 器 Rni 


RDRN ALPHAt1 ;全 部 B 的 分 量 与 BGAi) 进 行 浮 点 加 ,结果 送 REAi 
STR ALPHA+2 ;全 部 BGAi) 由 FEi 送 BMi 的 a+2 单 元 
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oa| 40, 0) 4(00，1) A(7, 7) 
orl | BO0,， 0) B(0, 1) B(7, 7) 
or2| CO, 0) C0, 1) Cl7, 7) 

PEMo PEM PEMes 


图 13.9 矩阵 相 加 存储 器 分 配 举例 


3. 矩阵 乘 

矩阵 乘 是 二 维 数 组 运算 , 比 矩 阵 加 要 复杂 许 
多 。 设 4B 和 C 为 三 个 8X8 的 二 维 矩阵 。 若 给 
定 A 和 B, 则 C=A4B 的 64 个 分 量 可 利用 下 列 公 
式 计算 。 


也 
= OC 全 3 区 
k=0 


在 SISD 计算 机 上 求解 ,可 执行 下 列 
FORTRAN 程序 。 


DD 10 天 0,7 
Do 10 二 0,7 
CI 中 =0 
DD 100,7 
10 CGO 可 =C( +RAGIK) * BK 


这 里 用 了 了 ,J ,K 三 重 循环 ,每 重 循环 执行 8 
次 , 共 需 512 次 乘 加 的 时 间 。 这 还 不 包括 执行 循 
环 控制 指令 所 需 的 时 间 。 

如 果 在 SIMD 阵列 处 理 机 上 求解 这 个 问题 ， 
就 可 以 利用 8 个 处 理 单元 并 行 计算 I 或 者 的 8 
个 循环 ,从 而 消去 一 重 循 环 。 例如, 并行 计算 丁 的 
8 个 循环 , 则 I、K 循环 照旧 。 这 时 可 执行 下 列 
FORTRAN 程序 。 


DO 10 天 0,7 
CLIID=0 
DO 10 了 枚 0,7 
10 C(I =C(LN+A(LER) * BK, 


这 样 , 便 可 把 速度 提高 到 原来 的 8 倍 , 即 每 个 
处 理 单元 的 计算 时 间 缩 短 为 64 次 乘 加 时 间 ,程序 
流程 图 如 图 13. 10 所 示 。 

需要 说 明 的 是 ,虽然 从 表面 上 看 ,这 个 程序 在 
每 个 处 理 部 件 内 部 的 执行 过 程 与 传统 的 SISD 计 


向 量 取 LOAD 4A(1, 办 
RGA(CJ)=4(7，J) 


播送 : BCAST 4(1,，K) 
RGA(J)=RGA(K) 


下 
向 量 乘 : MUL B(K,，J) 
RGA()-RGA(N)*BK, J) | 0SVs7 


是 


向 量 加 : ADD CU， 人 由 
RGA(J)=RGA(N)+ CU, ) 


向 量 存 : STO CU，./) 
RGA() 送 C(1, 办 OVST 


K=LIM 
1 是 

E11 

和 ELIM 
是 


图 13. 10 矩阵 乘 程 序 的 执行 流程 图 


计算 胡 系 统 结 药 教程 (入 2 版 ) 


算 机 是 类 似 的 ,但 是 实际 的 处 理 方式 是 不 同 的 。 第 一 ,控制 器 执行 的 指令 ,表面 上 是 标量 指 
令 ,但 实际 上 等 效 于 向 量 指令 ,如 向 量 取 、 向 量 存 、 向 量 加 、 向 量 乘 等 。 第 二 ,执行 这 个 程序 对 
4、B.C 向 量 在 处 理 部 件 存 储 器 中 的 存放 有 特别 的 要 求 , 如 图 13. 11 所 示 。 进 行 乘法 运算 
时 ,操作 数 BCK ,J 了) 都 从 本 处 理 部 件 的 PEM 中 读 取 的 ;但 被 乘 数 A(I,K) 对 所 有 处 理 部 件 
都 是 一 样 的 , 它 一 般 不 在 本 处 理 部 件 存 储 器 内 。 因 此 ,要 利用 阵列 处 理 机 的 “广播 ”功能 ,把 
一 次 循环 的 公共 系数 A(I,K) 取 出 后 送 到 控制 器 ,再 广播 到 全 部 8 个 处 理 单元 的 RGA 
中 去 。 


A(0,0) A(0,1) A(0,7) 
A(1,0) A(1,1) A(1,7) 
A(7,0) A(7,1) A(7,7) 
B(0.0) B(0,1) B(0,7) 
B(1,0) B(1,1) B(1,7) 
B(7,0) B(7,1) B(7,7) 
C(0.0) C00,1) C(0,7) 
C(1,0) C1,1) C(1,7) 
C(7,0) C07,1) C07,7) 
PEMo PEM PEM; 


图 13.11 和 矩阵 乘 存储 器 分 配 举 例 


如 果 把 Illiac KW 的 64 个 处 理 单元 全 部 利用 起 来 并 行 计 算 , 即 把 K 循环 的 运算 也 改 为 并 
行 , 则 可 进一步 提高 速度 。 但 这 需要 重新 在 阵列 存储 器 中 恰当 地 分 配 数据 ,还 要 能 使 8 个 中 
间 积 A(I,K)XB(K ,7 了) 能 并 行 相 加 (0 三 K7)。 这 就 要 用 到 下 面 的 累加 和 并 行 算法 。 不 
过 ,即便 如 此 ,就 KK 的 并 行 来 说 ,速度 的 提高 不 是 8 倍 , 而 是 8/logs8 守 2.7 信 。 
4. 累加 和 
累加 和 是 一 个 将 N 个 数 的 顺序 相 加 转变 为 并 行 相 加 的 问题 。 这 个 计算 任务 要 用 到 处 
理 单元 中 的 活动 标志 位 。 只 有 处 于 活动 状态 的 处 理 单元 才能 执行 相应 的 操作 。 为 叙述 方 
便 , 取 N=8。 即 有 8 个 数 A( 了 1) 要 顺序 累加 (0 寺 I<7)。 
在 SIMD 计算 机 上 可 写成 下 列 FORTRAN 程序 。 
C0 
Do 10 天 0,7 
10 GcC+A(I) 


这 是 一 个 串 行程 序 , 共 要 进行 8 次 加 法 。 
如 果 在 阵列 处 理 机 上 采用 成 对 递归 相 加 的 算法 , 则 只 需 log*8 王 3 次 加 法 就 够 了 。 首 


降 列 处 理 夫 
第 


先 , 把 原始 数据 A(D) ,0 二 I<7, 分 别 存 放 到 8 个 PEM 的 a 单元 中 ,然后 按照 下 面 的 步骤 求 


累加 和 : 


第 一 步 , 置 全 部 PE, 为 活动 状态 ,0<i<7; 


I; 
章 


第 二 步 , 全 部 A(1) ,0<I<7, 从 PEM; 的 a 单元 读 到 相应 PE; 的 累加 寄存 器 RGA; 中 ， 


0 委 i 委 7; 
第 三 步 , 令 K=0; 


第 四 步 , 将 全 部 PE; 的 (RGA,) 传 送 到 RGR; ,0<i<7; 
第 五 步 , 全 部 PE; 的 (RGR;) 经 过 互连网 络 向 右 传送 2* 步 距 ,0<i<7; 


第 六 步 ,j= 二 2* 一 1; 


第 七 步 , 置 PE。 至 PE 为 不 活动 状态 ; 


第 八 步 ,处 于 活动 状态 的 所 有 PE; 执行 (RGA;) 二 (RGA,;) 十 (RGR;) 操 作 ,j 二 i 过 7; 


第 九 步 ,K=K 十 1; 


第 十 步 , 若 KK 二 3, 则 转 回 第 四 步 ,否则 继续 往 下 执行 ; 
第 十 一 步 , 置 全 部 PE; 为 活动 状态 ,0<i<7; 
第 十 二 步 , 全 部 PE; 的 (RGA;) 存 人 相应 的 PEM; 的 a 十 1 单元 中 ,0<i<7。 


图 13. 12 为 其 计算 过 程 示意 图 。 其 中 ,灰色 的 处 理 单元 表示 被 屏蔽 ; 框 中 数字 表示 各 次 
循环 结果 。 为 简单 起 见 , 图 中 用 0 一 7 分 别 表示 A(0) 一 A(7); 且 第 五 步 中 PE 的 (RGR;) 在 
右 移 时 超出 PE 的 内 容 没 有 表示 出 来 。 这 是 因为 , 若 右 移 步 距 为 2* (mod 8), 则 它们 应 移入 
PE。 至 PEi ,而 这 些 PE 在 第 七 步 将 被 置 为 不 活动 状态 , 则 无 论 它们 的 RGR 接收 什么 内 容 


都 不 会 对 执行 结果 有 影响 。 


循环 K=0 
PE 


PE; | 4(3) 


PE, | 4(4) 


PE; | 4(5) 


PE | 4(6) 


PE | 4(D 0,1 
PE, | 4(2) 2 0-2 
去 
) 1~4 0-4 
» 2-5 0-5 
2 3-6 0-6 
LU N 6,7 4-7 0-7 


PE; | 407) 


13. 12 并行 处 理 机 上 累加 和 的 计算 过 程 


这 个 例子 表明 : 虽然 经 过 变换 ,在 Illiac 入 上 也 能 实现 累加 和 的 并 行 计算 ,但 由 于 屏蔽 
了 一 部 分 处 理 单元 ,降低 了 它们 的 利用 率 , 所 以 速度 提高 的 倍数 不 等 于 处 理 单元 的 个 数 N， 


而 只 是 N/logs N。 
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| 


习 题 13 


解释 下 列 名 词 。 


阵列 处 理 机 阵列 控制 器 
分 布 式 存储 器 的 阵列 机 共享 存储 器 的 阵列 处 理 机 


13. 2 


阵列 处 理 机 操作 模型 可 以 用 5 元 组 表示 : 阵列 处 理 机 王 C(N,C,T,M,R), 简 述 其 


中 N.C、T.M.\R 的 含义 。 


:3 
.4 
13.5 
机] 
攻 汪 


13. 8 


简 述 阵列 处 理 机 的 特点 。 

SIMD 的 并 行 计算 机 在 系统 组 成 上 应 包含 哪些 部 分 和 功能 ? 

试 分 析 与 比较 SIMD 计算 机 与 向 量 计算 机 的 相同 与 不 同 。 

简 述 SIMD 计算 机 的 分 布 式 存储 器 与 共享 存储 器 的 异同 。 

BSP 的 并 行 处 理 机 中 采用 了 什么 样 的 5 级 流水 线 ? 该 流水 线 有 什么 好 处 ? 
假设 在 某 集中 式 主 存 的 阵列 处 理 机 中 ,处 理 单元 数 为 4, 为 了 使 4X4 的 二 维 数 


组 A 的 各 元 素 ai (ii 一 0 一 3 一 0 一 3) 在 行列 . 主 / 次 对 角 线 上 均 能 实现 无 冲突 访问 ,请 填 出 
数组 各 元 素 在 存储 器 各 分 体 ( 分 体 号 从 0 开始 ) 中 的 分 布 情况 ,假设 ao 已 放 在 分 体 号 为 3， 
体内 地 址 为 ?十 0 的 位 置 ,如 下 表 所 示 。 


ry 
分 体 号 0 1 2 3 4 


体内 地 址 


第 章 
—— 14 数据 流 计算 机 


内 容 提要 

(1) 数据 流 计算 机 的 基本 原理 ; 
(2) 数据 流程 序 图 和 数据 流 语言 ; 
(3) 数据 流 计算 机 结构 ; 

(4) 数据 流 计算 机 的 评价 。 


传统 的 汉 ， 诺 依 曼 计算 机 是 在 控制 器 的 控制 下 顺序 执行 指令 的 ,属于 控制 驱动 计算 机 。 
即使 是 改进 了 的 冯 。 诺 依 曼 计算 机 也 是 如 此 。 数 据 流 计算 机 则 根本 不 同 , 它 采用 数据 驱动 
方式 ,根据 数据 的 可 用 性 来 决定 指令 的 执行 (而 不 是 由 程序 计数 器 来 决定 执行 哪 条 指令 ) 。 
这 种 计算 机 能 够 充分 开发 程序 中 的 并 行 性 , 曾 被 认为 是 具有 很 好 前 景 的 高 度 并 行 的 新 型 计 
算 机 。 美 国 MIT 实验 室 的 Jack Dennis 是 数据 流 计算 机 的 先驱 ,他 于 1972 年 首先 提出 了 数 
据 流 模型 ,并 根据 该 模型 研制 出 了 Dennis 静态 数据 流 计算 机 ,在 该 机 上 实现 了 数据 流 语 
言 VAL。 


14.1 数据 流 计 算 机 的 基本 原理 


14.1.1 数据 驱动 原理 


数据 流 计算 机 (Dataflow Computer) 一 般 采 用 数据 驱动 方式 工作 , 它 没有 程序 计数 器 ， 
没有 常规 的 变量 概念 。 它 的 指令 是 在 数据 可 用 性 的 控制 下 并 行 执行 的 ,其 基本 原理 可 以 归 
纳 为 : 

(1) 当 且 仅 当 指令 所 需要 的 数据 可 用 时 ,该 指令 才 可 执行 。 

指令 的 执行 不 受 其 他 控制 条 件 的 约束 ,任何 指令 只 要 它 所 需要 的 操作 数 全 部 齐备 且 可 
用 时 ,就 可 以 同时 执行 。 也 就 是 说 ,指令 执行 可 以 相互 独立 ,操作 结果 可 以 不 受 指令 执行 顺 
序 的 影响 ,这 就 是 数据 流 计算 机 所 特有 的 指令 操作 的 异步 性 和 操作 结果 的 确定 性 。 数 据 流 
计算 机 完全 摆脱 了 外 界 强加 于 它 的 控制 ,指令 在 数据 可 用 性 驱动 下 并 行 执行 。 

(2) 任何 操作 都 是 纯 函数 操作 。 

数据 流 计算 机 不 设置 状态 ,在 指令 之 间 直 接 传送 数据 ,不 改变 机 器 状态 ,从 而 具有 纯 函 
数 的 特点 。 它 通常 直接 支持 函数 语言 ,不仅 有 利于 开发 程序 中 各 级 的 并 行 性 ,而 且 也 有 利于 
改善 软件 环境 ,提高 软件 的 生产 力 。 

上 述 的 数据 驱动 计算 (Data Driven Computation) 只 是 数据 流 计算 机 中 驱动 方式 的 一 种 。 
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还 有 一 种 叫 需求 驱动 计算 (Demand Driven Computation) ,也 称 需 求 驱动 方式 。 它 只 在 当 某 
一 个 函数 需要 用 到 某 一 个 自 变量 时 才 驱 动 对 该 自 变 量 的 求 值 操作 。 前 者 是 一 种 提前 计算 的 
策略 ,而 后 者 则 是 按 需 求 值 的 ,是 一 种 滞后 计算 的 策略 。 

与 数据 驱动 方式 相 比 ,需求 驱动 方式 可 以 减少 许多 不 必要 的 操作 ,有 助 于 提高 机 器 的 效 
率 。 但 它 却 有 实现 更 为 困难 的 缺点 。 因 此 ,目前 大 多 数 数据 流 计 算 机 都 采用 数据 驱动 方式 。 


14.1.2 数据 流 计算 机 中 指令 的 执行 过 程 


在 数据 流 计算 机 中 ,用 数据 令 牌 传送 数据 并 激活 指令 。 用 一 种 有 向 图 来 表示 数据 流程 
序 。 一 条 指令 主要 由 一 个 操作 码 一 个 或 几 个 操作 数 .一 个 或 几 个 后 继 指令 地 址 组 成 。 后 继 
指令 地 址 用 于 把 本 指令 的 执行 结果 送 往 需要 这 个 数据 的 指令 中 。 

下 面 以 计算 函数 = 一 (e 十 0) X (ae 一 0) 为 例 , 说 明 指令 的 执行 过 程 ,如 图 14. 1 所 示 。 图 
中 用 *。 ”表示 数 据 令 牌 ,用 “OO” 表示 数据 令 牌 所 携带 的 操作 数 。 


上 J=a +( )=b 


元 市 1 ktl: suB (1) (\) 2 


T 


k+2: | MUL | x 


人 


(a) 第 一 步 
| 


er 1 pl: | suB (0 了 


人 


kK+2: |IMUL ()() x 


TT 


GD) 


(b) 第 二 步 


二 市 1 k+l: suB (Vl) 2 


| 


k+2: IMUL ( )() x 


BG 


(0) 第 三 步 


14.1 计算 = 一 (ea 十 0)X(a 一 久 时 指令 的 执行 过 程 


从 图 中 可 以 看 出 ,数据 是 在 指令 之 间 直 接 传送 的 .程序 的 执行 过 程 只 受到 指令 之 间 数 据 
相关 性 的 限制 。 
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数据 驱动 具有 以 下 特性 : 

(1) 异步 性 (asynchrony): 只 要 指令 所 需 的 数据 令 牌 者 到达, 指令 即 可 独立 地 开始 执 
行 ,而 不 必 关 心 其 他 指令 及 数据 的 情况 。 

(2) 并 行 性 (parallelism) : 可 同时 并 行 执行 多 条 指令 。 

(3) 函数 性 (functionalism) : 由 于 不 使 用 共享 的 数据 存储 单元 ,所 以 数据 流程 序 不 会 产 
生 诸 如 改变 存储 字 这 样 的 副作用 (Side Effect) ,也 就 是 说 数据 流 运算 是 纯 函数 性 的 。 

(4) 局 部 性 (locality) : 运算 过 程 中 所 产生 的 数据 不 是 用 操作 数 的 地 址 来 引用 的 ,而 是 
作为 数据 令 牌 直 接 传送 的 ,因此 数据 流 运算 没有 产生 长 远 影 响 的 结果 ,其 运算 具有 局 部 性 。 

由 于 数据 流 运 算 具 有 上 述 异 步 性 .并 行 性、 函数 性 .局 部 性 ,所 以 数据 流 计 算 机 很 适合 采 
用 分 布 方式 实现 。 


14.1.3 数据 流 计算 机 的 指令 结构 


图 14.2 是 数据 流 计算 机 中 指令 的 结构 示意 图 。 其 指令 主要 由 两 部 分 组 成 : 操作 包 、 数 
据 令 牌 。 操 作 包 通常 由 操作 码 .一 个 或 几 个 源 操作 数 以 及 一 个 或 几 个 后 继 指令 地 址 组 成 。 
后 继 指 令 地 址 用 于 组 成 新 的 数据 令 牌 ,以 便 把 本 条 指令 的 运算 结果 送 往 需要 它 的 目标 指令 。 
操作 包 (Operation Packet) 数据 令 牌 (Data Token) 
(a) 指令 组 成 
操作 码 。 |。 源 操作 数 1 源 操作 数 2 ”| 后 继 指令 地 址 
(b) 操作 包 组 成 
结果 数值 目标 地 址 
(c) 数据 令 牌 组 成 
图 14.2 数据 流 计算 机 指令 的 组 成 


数据 令 牌 (Data Token) 通 常 由 结果 数值 和 目标 地 址 等 组 成 ,如 图 14. 2(c) 所 示 。 其 中 ， 
结果 数值 就 是 上 条 指令 的 运算 结果 ,而 目标 地 址 则 直接 取 自 上 条 指令 的 后 继 指 令 地 址 。 如 
果 一 条 指令 的 执行 结果 要 送 往 几 个 目标 地 址 ,就 要 分 别 形成 几 个 数据 令 牌 。 

可 以 看 出 ,在 数据 流 计算 机 中 ,允许 多 个 操作 包 和 多 个 数据 令 牌 同时 在 各 个 操作 部 件 之 
间 传 送 ,允许 多 条 指令 并 行 执行 。 因 此 ,数据 流 计 算 机 除了 要 有 一 套 能 够 并 行 执行 指令 的 操 
作 部 件 之 外 ,还 需要 一 套 高 效 的 操作 包 和 数据 令 牌 传送 机 制 。 


14.2 数据 流程 序 图 和 数据 流 语言 
数据 流 计算 机 的 程序 是 用 数据 流 语 言 编 写 的 。 最 基本 的 数据 流 语言 是 数据 流 计 算 机 的 
机 器 语言 , 即 数据 流程 序 图 。 
14.2.1 数据 流程 序 图 


数据 流程 序 图 是 一 种 特殊 的 有 向 图 ,由 多 个 节点 以 及 连接 这 些 节 点 的 有 向 弧 构 成 。 节 
点 用 圆圈 .三 角形 、 萎 形 、 椭 圆 等 形状 表示 ,其 中 的 符号 表示 进行 什么 操作 。 弧 代表 节点 之 间 
的 关系 及 令 牌 流向 。 这 种 表示 法 也 称 为 节点 分 支线 表示 法 。 
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为 便于 理解 , 先 举 一 例 说 明 。 图 14. 3 是 计算 函数 z 二 (a 十 5)X (a 一 5b) 的 数据 流程 序 
图 。 其 中 三 角形 表示 复制 节点 ,圆圈 表示 运算 节点 。 图 14.4 是 该 数据 流程 序 图 的 执行 过 程 
示意 图 。 图 中 用 实心 的 圆 点 代表 数据 令 牌 沿 弧 移 动 , 其 旁边 的 数字 代表 数据 的 值 。 对 于 任 
意 一 个 节点 来 说 ,其 输入 弧 上 有 实心 圆 点 就 代表 相应 的 输入 数据 已 准备 就 绪 。 当 其 所 有 输 
入 弧 上 的 数据 都 已 经 就 绪 , 且 输出 弧 上 没有 数据 令 牌 时 , 便 可 “点 火 ” 执 行 。 


图 14.3 计算 函数 z= (a 十 b) x 图 14.4 数据 流程 序 图 的 执行 过 程 示意 图 (4a 二 3,6 一 5) 
(a 一 所 的 数据 流程 序 图 


J.B. Dennis 和 J.E. Rumbaugh 等 提出 了 用 于 数据 流程 序 图 的 各 种 符号 ( 即 节点 ), 并 规 
定 了 相应 的 操作 执行 规则 。 现 对 主要 的 一 些 节点 的 简要 介绍 如 下 (参考 图 14.5 和 图 14. 6， 
图 中 的 实心 箭头 表示 数据 值 ,空心 箭头 表示 逻辑 值 ) 。 


Te 


(a) 常数 产生 节点 (b) 复制 操作 节点 


< 
< 
/ F(a>b) 


控制 连接 
(c) 连接 操作 节点 判定 操作 节点 
a b 
XM La 、 
一 一 一 > 
atb 
(e) 加 法 运算 节点 (f) 加 1 节点 


图 14.5 常用 非 控制 类 操作 节点 及 其 激发 规则 
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(1) 复制 操作 节点 (copy): 可 以 是 数据 的 复制 ,也 可 以 是 控制 量 ( 布 尔 量 ) 的 复制 。 
图 14.5(b) 中 画 出 的 是 数据 的 复制 ,箭头 是 实心 的 。 如 果 要 表示 控制 量 的 复制 ,只 要 把 箭头 章 


改 为 空心 的 即 可 。 复 制 操作 节点 有 时 也 称 连接 操作 节点 。 图 14. 5(c) 中 夯 出 了 数据 连接 节 
点 和 控制 连接 节点 及 其 激发 后 的 结果 。 

(2) 运算 操作 节点 (operator) : 主要 包括 常用 的 加 、 减 、 乘 、 除 、 乘 方 、 开 方 等 算术 运算 及 
与 或 , 非 、 异 或 或 非 等 布尔 逻辑 运算 。 激 发 后 输出 带 相应 操作 结果 的 令 牌 。 图 14. 5(e) 和 
图 14.5(f) 是 两 个 例子 。 

(3) 常数 发 生 器 节点 (identity): 没有 输入 端 ,只 有 一 条 输出 分 支 ,如 图 14. 5(a) 所 示 。 
它 用 于 产生 常数 ,激发 后 输出 带 常 数 的 令 牌 。 

(4) 判定 操作 节点 (decider) : 如 图 14.5(d) 所 示 。 它 对 输入 数据 按 某 种 关系 进行 判断 
和 比较 ,然后 在 输出 端 给 出 带 逻 辑 值 真 (T) 或 假 (F) 的 控制 令 牌 。 

(5) 控制 类 操作 节点 : 控制 类 操作 节点 的 激发 条 件 需要 加 入 布尔 控制 端 ,如 图 14.6 所 
示 。 常 用 的 控制 类 操作 节点 有 4 种 , 见 表 14. 1。 


表 14.1 常用 的 控制 类 操作 节点 


控制 类 操作 节点 所 对 应 的 条 件 语句 示 意 图 
工 门 控 节 点 if true then a>x 图 14.6(a) 
F 门 控 节点 if false then ax 图 14.6(b) 
开关 门 控 节点 (Switch) if true then a-=x else a-=y 四 | 
归并 门 控 节 点 (Merge) if true then ax else b>x 了 1 由 
a a 
T 激发 后 F 
Per 一 = 二 (于 
a a 
(a) T 门 控 节 点 (b)F 门 控 节点 
a a 
激发 后 激发 后 
SE F 
4 a -ee 一 > 4 
en De 
/ \ 
(©) 开关 门 控 节 点 1 (d) 开关 门 控 节 点 2 
a b, 
激发 后 激发 后 
F 
地 
(e) 归并 门 控 节 点 1 (f) 归并 门 控 节点 2 


图 14.6 常用 控制 类 操作 节点 及 其 激发 规则 
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图 14.6(a) 为 工 门 控 节 点 。 当 布尔 控制 端 为 真 , 且 输入 端 有 数据 令 牌 时 才 激 发 ,然后 在 


输出 端 产生 带 输 入 数据 的 令 牌 。F 门 控 节 点 与 此 类 似 。 图 14. 6(c) 和 图 14. 6(d) 为 


控 节 点 。 它 们 都 有 一 个 数据 输入 端 和 两 个 数据 输出 端 ,并 受 控制 端 控制 。 激 发 后 ,根据 控制 
端 值 的 真 或 假 , 在 相应 输出 端 上 产生 带 输 入 数据 的 令 牌 。 图 14. 6(e) 和 图 14. 6(f) 为 归并 门 
控 节 点 。 它 们 都 有 两 个 数据 输入 端 和 一 个 数据 输出 端 ,并 受 控制 端 控制 。 激 发 后 ,根据 控制 


端 值 的 真 或 假 , 在 相应 输出 端 上 产生 带 输入 数据 的 令 牌 。 


关门 


此 外 ,根据 数据 流程 序 设计 的 需要 ,还 可 以 设计 一 些 其 他 的 基本 节点 和 功能 更 强 的 复合 


型 节点 ,这 里 就 不 一 一 列举 了 。 
下 面 举例 说 明 如 何 利 用 上 面 的 这 些 节 点 来 构成 数据 流程 序 图 。 
例 14.1 利用 上 述 单 功能 操作 节点 实现 一 般 高 级 语言 中 的 条 件 语句 : 


if true then Gl else G2 


试 画 出 数据 流程 序 图 ,其 中 的 Gl 和 G2 都 是 各 自 独 立 的 数据 流程 序 图 。 


解 ”如 图 14.7 所 示 , 利 用 一 个 复制 节点 ,一 个 工 门 控 节 点 和 一 个 下 门 控 节 点 实现 起 始 
数据 令 牌 的 两 路 传送 , 它 根据 起 始 控制 令 牌 所 携带 的 是 真 值 还 是 假 值 把 起 始 数据 令 牌 分 别 
送 往 G1 数据 流程 序 图 或 G2 数据 流程 序 图 ,并 利用 一 个 归并 门 控 节 点 选择 G1 或 G2 数据 
流程 序 图 中 的 一 个 结果 作为 输出 ,选择 的 依据 仍然 是 起 始 控制 令 牌 携带 的 是 真 值 还 是 假 值 。 


例 14.2 利用 上 述 单 功能 操作 节点 实现 一 般 高 级 语言 中 的 循环 语句 。 
while P do G 
或 
until P do G 
试 画 出 数据 流程 序 图 ,其 中 ,P 是 循环 条 件 ,G 是 循环 体 。 
起 始 数据 令 牌 起 始 控制 令 牌 
| 起 始 数据 令 牌 


起 始 控制 令 牌 


Gl G2 循环 体 G GO gS 


下 


输出 


图 14.7 条 件 结构 的 数据 流程 序 图 图 14.8 循环 结构 数据 流程 序 图 


解 如 图 14.8 所 示 , 为 了 使 数据 流程 序 图 中 的 循环 体 G 能 够 开始 执行 ,在 一 开始 就 要 
输入 一 个 起 始 数据 令 牌 和 一 个 起 始 控制 令 牌 ,并 用 一 个 归并 门 控 节 点 取得 循环 体 G 的 输入 
数据 令 牌 。 在 第 一 次 循环 开始 时 从 外 部 输入 数据 令 牌 ,而 在 以 后 的 各 次 循环 中 都 从 循环 体 
本 身 的 输出 端 取 得 所 需要 的 输入 数据 令 牌 。 在 第 一 次 循环 时 ,由 一 个 荆门 控 节 点 控制 起 始 
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数据 令 牌 是 否 输入 给 循环 体 G, 这 就 是 while 语句 与 until 语句 的 区 别 。 选 择 依据 是 判断 起 
始 控制 令 牌 携带 真 值 还 是 携带 假 值 。 另 外 ,用 一 个 判定 操作 节点 根据 循环 结束 条 件 P 产生 
的 控制 令 牌 来 控制 循环 的 执行 。 最 后 用 一 个 开关 门 控 节 点 分 配 每 次 循环 产生 的 结果 数据 令 
牌 。 如 果 循 环 还 没有 结束 , 则 判定 操作 节点 P 输出 为 * 真 ”", 通 过 开关 门 控 节 点 把 数据 令 牌 
分 配给 循环 体 G ,继续 进行 下 一 次 循环 ;如 果 循 环 结束 , 则 判定 操作 节点 P 输 出 为 “ 假 ”, 通 过 
开关 门 控 节 点 把 结果 数据 令 牌 输出 到 外 部 。 

除了 上 面 所 介绍 的 节点 分 支线 方法 之 外 ,还 有 一 种 表示 数据 流程 序 图 的 方法 , 称 为 活动 
模 片 表示 法 (Activity Templete) 。 在 采用 活动 模 片 表示 法 的 数据 流程 序 图 中 ,组 成 数据 流 
程序 图 的 基本 单位 是 活动 模 片 。 每 个 活动 模 片 相当 于 节点 分 支线 表示 法 中 的 一 个 或 几 个 操 
作 节 点 。 一 个 活动 模 片 通常 由 4 个 字段 组 成 ,如 图 14.9 所 示 。 


活动 片 标记 | 操作 码 | 操作 数 1 | 操作 数 2 | ”目标 活动 片 /部 位 号 
图 14.9 活动 模 片 的 结构 


例 14.3 请 给 出 函数 >= (a 十 b) X (a 一 中 的 活动 模 片 表示 法 。 
解 ” 该 函数 的 活动 模 片 表示 法 如 图 14. 10 所 示 。 


a a 
a:| + | 市 | 市 | 4 2:[「 一 | 十 | 十 [| 县 
的 玲玲 划 演 
数 数 名 
1 2 ms 
3:|x | | 


图 14.10 函数 = (a 十 b)X (a 一 b) 的 活动 模 片 表示 


活动 模 片 实际 上 是 节点 在 数据 流 机 器 内 部 具体 实现 时 的 存储 器 映像 。 比 较 而 言 ,活动 
模 片 表示 法 更 接近 于 常规 计算 机 中 的 机 器 代码 ,能 够 由 数据 流 计 算 机 硬件 直接 解释 执行 。 
但 节点 分 支线 表示 法 更 接近 于 一 般 的 高 级 语言 ,具有 可 读 性 好 ,直观 等 优点 ,在 程序 设计 中 
被 广泛 采用 。 


14.2.2 数据 流 语言 及 其 性 质 


如 前 所 述 , 数 据 流程 序 图 实际 上 是 数据 流 计 算 机 的 机 器 语言 。 其 优点 是 直观 易 懂 , 但 编 
程 效率 很 低 ,难以 被 一 般 用 户 所 接受 。 因 此 需要 有 适合 于 数据 流 计 算 机 的 高 级 语言 。 

目前 ,数据 流 语言 的 研究 还 很 不 成 熟 , 还 没有 形成 像 传 统 高 级 语言 那样 的 规范 版 本 。 有 
的 数据 流 机 就 是 用 传统 的 命令 式 语言 作为 数据 流 计算 机 的 高 级 语言 ,用 专门 的 编译 程序 将 
用 该 高 级 语言 编写 的 程序 转换 成 数据 流程 序 图 。 例 如 ,美国 IOWA 州立 大 学 做 过 这 种 研 
究 。 美 国 Texas 仪器 公司 成 功 地 将 ASC FORTRAN 编译 程序 修改 后 ,用 于 其 数据 流 机 上 。 

虽然 一 般 来 说 ,不 论 采 用 哪 种 高 级 语言 编写 的 程序 ,都 可 以 通过 特殊 编译 程序 的 处 理 ， 
变换 成 数据 流程 序 图 ,但 传统 机 器 上 广泛 使 用 的 面向 过 程 的 命令 式 语言 缺乏 并 行 性 描述 部 
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分 ,很 难 表达 出 数据 流 控制 机 制 的 并 行 性 。 虽 然 有 些 语言 也 扩充 了 并 行 描述 成 分 ,如 并 行 
FORTRAN .并行 PASCAL、 并 行 Ada 语言 等 ,但 由 命令 式 语言 程序 转换 成 数据 流 图 的 过 程 
也 还 是 复杂 和 低 效 的 。 所 以 研究 和 发 展 新 的 .适合 于 数据 流 机 制 的 高 级 语言 是 非常 重要 的 。 

已 经 出 现 的 比较 适合 于 表述 数据 流程 序 的 高 级 语言 有 以 下 两 种 : 

(1) 单 赋值 语言 。 包 括 美国 加 州 大 学 Irvine 分 校 研制 的 ID 语言 ,美国 MIT 实验 室 的 
VAL ,法国 的 LAU 语言 ,英国 曼 切 斯 特大 学 的 SISAL 语言 等 。 

(2) 函数 类 语言 。 比 较 著名 的 有 美国 犹他 大 学 研制 的 FP 语言 。 

VAL 语言 具有 以 下 优点 : 

(1) 并 行 性 好 。VAL 语言 易于 开发 程序 中 隐 含 的 和 显 式 的 并 行 性 , 它 提供 了 相应 的 语 
句 结构 来 表达 算法 中 的 并 行 成 分 ,从 而 能 够 高 效 地 编写 数据 流程 序 。 

(2) 遵循 单 赋值 规则 。VAL 语言 没有 传统 计算 机 上 所 用 的 变量 的 概念 , 仅 有 数值 的 名 
称 , 运 算 不 产生 副作用 。 单 赋值 使 程序 清晰 ,易于 理解 ,为 程序 的 并 行 执行 提供 了 一 种 新 
方法 : 

(3) 有 丰富 的 数据 类 型 。 基 本 数据 类 型 有 整 型 . 实 型 .布尔 型 和 字符 型 等 ,结构 类 型 有 
数组 和 记录 等 。 而 且 人 允许 数组 和 记录 之 间 互 相 嵌 套 调 用 , 艇 套 的 深度 不 限 。 

(4) VAL 是 一 种 强 类 型 语言 。 任 何 函 数 的 自 变量 和 计算 结果 的 数据 类 型 都 要 在 函数 
的 首部 进行 定义 。 编 译 程序 在 编译 过 程 中 能 够 很 方便 地 检测 出 函数 和 表达 式 中 数据 类 型 发 
生 的 错误 。 

(5) 在 源 程序 中 不 规定 语句 的 执行 顺序 ,没有 GOTO 之 类 的 程序 控制 语句 。 语 句 的 执 
行 顺序 不 影响 最 终 运 算 结果 。 

(6) 编制 的 程序 具有 模块 化 结构 。 实 际 上 .VAL 语言 编写 的 程序 是 一 组 模块 的 集合 。 
每 一 个 模块 包括 一 个 外 部 函数 ,该 函数 又 可 以 被 其 他 模块 调用 。 在 一 个 模块 内 部 往往 包含 
许多 内 部 函数 ,这 些 内 部 函数 仅仅 供 本 模块 内 部 调用 。 

但 它 存 在 以 下 缺点 : 

(1) 没有 输入 输出 手段 ,特别 是 交互 式 输 入 输出 手段 。 

(2) 程序 的 表达 式 还 不 够 自然 和 方便 。 

(3) 实现 的 效率 还 很 低 。 


14.3 数据 流 计算 机 结构 


按照 对 数据 令 牌 处 理 方法 的 不 同 ,可 把 数据 流 计算 机 分 为 两 种 : 静态 数据 流 计 算 机 和 
动态 数据 流 计 算 机 。 


14.3.1 静态 数据 流 计算 机 


静态 数据 流 计算 机 的 结构 如 图 14. 11 所 示 。 

要 执行 的 数据 流程 序 存 放 在 指令 存储 部 件 (ISU) 中 。 数 据 令 牌 开始 是 存放 在 更 新 部 件 
(UU) 的 输入 缓冲 器 中 的 ,UU 根据 数据 令 牌 所 携带 的 目标 地 址 ,把 令 牌 中 的 操作 数 送 往 
ISU 中 相应 指令 的 有 关 位 置 。 当 一 条 指令 所 需要 的 数据 令 牌 全 部 到 达 后 ,这 条 指令 将 被 激 
活 。UU 会 把 这 样 的 指令 的 地 址 传送 给 RU。RU 把 这 些 指令 取出 , 送 到 可 执行 指令 队列 
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(IQ) 中 。 若 PU 中 有 空闲 的 处 理 机 ,分 派 程序 将 按 先后 次 序 把 处 理 机 分 配给 等 待 执行 的 指 14 
令 , 使 它们 并 行 执行 。 指 令 执行 后 ,其 结果 将 与 指令 中 给 出 的 后 继 指令 地 址 结合 ,组 成 新 的 章 
数据 令 牌 ,并 被 送 入 UU 的 输入 缓冲 器 。 如 此 反复 。 


指令 存储 部 件 
(ISU) 


Fe 指 人 地址 -= | 到 指令 部 件 (KU) 


更 新 部 件 (UU 


1 1 
指令 处 理 部 件 可 执行 指令 队列 
(PU) (IQ) 


数据 令 牌 
图 14.11 静态 数据 流 计算 机 的 结构 
在 静态 数据 流 计算 机 中 ,数据 令 牌 是 沿 数据 流程 序 图 中 的 有 向 分 支流 向 操作 节点 的 。 
当 一 个 节点 的 所 有 输入 分 支线 上 的 数据 令 牌 都 到 达 , 且 输出 分 支线 上 没有 数据 令 牌 时 ,就 可 
以 执行 该 节点 的 操作 ,这 称 为 点 火 (firing)。 另 外 还 规定 ,在 任何 一 个 时 钟 节拍 内 ,在 任何 一 
条 分 支线 上 只 允许 传送 一 个 数据 令 牌 ,这 样 做 的 好 处 是 不 必 给 数据 令 牌 附加 标号 ,使 得 静态 
数据 流 计算 机 的 结构 比较 简单 ,但 对 程序 并 行 性 的 支持 不 够 。 
Jack Dennis 在 上 述 模型 的 基础 上 ,研制 了 MIT 静态 数据 流 计算 机 ,其 结构 框图 如 


图 14. 12 所 示 。 


处 理 部 件 (PS) 
处 理 单元 |- 上 一 一 一 
数 -一 
据 : 
令 一 
牌 处 理 单元 n-1 
\ 人 
制 1 1 和 
分 配 网 络 (DN) 入 [控制 网 络 (CN) 仲裁 网 络 (AN) 
0 下 


存储 部 件 (MS) 
图 14.12 MIT 静态 数据 流 计 算 机 的 结构 图 


该 系统 主要 由 5 个 部 分 组 成 : 

(1) 存储 部 件 (Memory Section, MS)。 

由 指令 单元 组 成 ,每 个 指令 单元 保存 数据 流程 序 中 的 一 条 指令 ,与 数据 流程 序 图 中 的 节 
点 对 应 ,通过 地 址 来 访问 指令 。 
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(2) 处 理 部 件 (Processing Section ,PS) 。 

由 多 个 处 理 单元 组 成 ,可 以 并 行 执行 已 被 激活 的 指令 所 要 求 的 操作 。 

(3) 仲裁 网 络 (Arbitration Network,AN) 。 

将 可 执行 的 操作 包 由 存储 器 传送 到 人 处理 部 件 。 允 许多 个 操作 包 同 时 传输 。 

(4) 控制 网 络 (Control Network ,CN ) 。 

将 控制 令 牌 由 处 理 部 件 发 送 到 存储 部 件 相 应 的 指令 单元 中 。 

(5) 分 配 网 络 (Distribution Network,DN)。 

将 处 理 部 件 产生 的 多 个 结果 数据 令 牌 按 其 目标 地 址 分 别传 送 至 存储 部 件 相应 的 指令 单 
元 中 。 
14.3.2 动态 数据 流 计算 机 


在 动态 数据 流 计 算 机 中 ,数据 令 牌 可 以 带 有 标记 , 称 为 带 标记 的 数据 令 牌 (Tagged Data 
Token) 。 数 据 令 牌 的 标记 唯一 地 确定 了 令 牌 的 状态 及 其 他 相关 信息 。 因 此 , 当 数 据 令 牌 在 
数据 流程 序 图 的 有 向 分 支线 上 流动 时 ,同一 条 分 支线 上 可 以 同时 有 几 个 数据 令 牌 在 移动 。 

典型 的 动态 数据 流 计算 机 的 基本 结构 如 图 14. 13 所 示 。 


指令 存储 部 件 
re 
-一 一 | 更 新 [ 取 指 令 部 件 


Ct 可 执行 指令 队列 


图 14.13 动态 数据 流 计算 机 的 结构 


匹配 部 件 将 处 理 部 件 中 各 处 理 单元 送 来 的 结果 数据 令 牌 赋予 相应 的 标记 ,并 将 流向 同 
一 指令 (标记 相符 ) 的 数据 令 牌 匹配 成 对 或 者 组 。 当 一 条 指令 所 需要 的 数据 令 牌 全 部 到 齐 
后 ,该 指令 将 被 激活 。 已 匹配 的 数据 令 牌 组 被 送 往 更 新 / 取 指 令 部 件 ,由 该 部 件 把 需要 它们 
的 指令 从 指令 存储 部 件 中 取出 ,并 把 该 指令 与 数据 令 牌 组 携带 的 操作 数组 成 一 个 操作 包 , 送 
入 可 执行 指令 队列 ,然后 由 处 理 部 件 执行 。 若 匹配 失败 , 即 指令 所 需要 的 数据 令 牌 没有 全 部 
到 齐 , 则 把 已 到 达 的 数据 令 牌 暂 存在 匹配 部 件 的 缓冲 存储 器 中 , 供 下 次 匹配 时 再 使 用 。 匹 配 
缓冲 存储 器 通常 是 一 个 相 联 存储 器 。 

动态 数据 流 计算 机 中 给 数据 令 牌 赋予 标记 的 方法 有 利于 最 大 限度 地 开发 程序 中 的 并 行 
性 。 如 果 程 序 是 循环 的 , 则 标记 方法 可 以 区 分 出 不 同 层次 的 迭代 执行 ,实现 它们 的 并 行 
计算 。 

动态 数据 流 计算 机 从 结构 上 可 以 分 为 两 大 类 。 一 类 是 以 MIT 为 代表 的 网 络 型 结构 数 
据 流 计算 机 , 另 一 类 是 以 Manchester 为 代表 的 环 状 结构 数据 流 计算 机 。 下 面 介绍 它们 的 结 
构 特点 和 工作 原理 等 。 

1. 网 络 型 结构 动态 数据 流 计算 机 

MIT 动态 数据 流 计算 机 是 网 络 型 结构 的 典型 代表 。 它 由 N 个 处 理 单元 (PE) 和 一 个 
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NXNN 的 包 交 换 开 关 网 络 组 成 。PE 之 间 通 过 这 个 开关 网 络 进行 信息 交换 。 每 个 PE 基本 
上 就 是 一 台 完 整 的 处 理 机 ,有 自己 的 存储 器 .算术 逻辑 运算 部 件 . 标 记 匹配 部 件 等 ,其 结构 如 
图 14. 14 所 示 。 

MIT 动态 数据 流 计 算 机 的 指令 格式 如 图 14. 15 所 示 ,op 是 操作 码 ,nc 指出 存放 在 指令 
中 的 常数 的 个 数 ( 不 超过 两 个 ),nd 指出 操作 结果 送 往 目 的 地 的 个 数 。 每 个 目的 地 由 ;、p、 
nt、af 4 个 字段 组 成 。 其 中 ,s 指明 目的 地 地 址 ,p 指明 用 于 目的 地 指令 的 第 几 个 输入 端 ,nt 
痢 明 激活 目的 地 指令 所 需要 的 令 牌 个 数 ,af 指明 用 于 选择 执行 目的 地 指令 的 PE 是 哪 一 个 
的 赋值 函数 。cl、c2 是 依附 于 该 指令 的 常数 。 


- op | nc nd 
“1 
-| PE, | -| 0 本 cl( 常 数 1) 


i c2( 常 数 2) 
~ PE = NXN (si pis nt, afi) 
. 络 | : 
: : 开关 网 络 | : (sa, Pa, nb afP) 1? 目的 地 
= PE | El (53, Pi nt afs) 
图 14.14 动态 数据 流 计算 机 的 结构 图 14.15 数据 流 计算 机 的 典型 指令 格式 


PE 的 内 部 结构 如 图 14. 16 所 示 。 它 由 程序 /数据 存储 器 、I 结 构 存储 器 、( 标 记 ) 匹 配 部 
件 、 算 术 逻 辑 运算 部 件 . 打 标 记 和 对 标记 特征 进行 控制 的 部 件 等 组 成 。PE 的 输入 口 有 一 个 
寄存 器 ,此 寄存 器 为 空 时 ,可 以 接收 一 个 其 他 PE 经 开关 网 络 送 来 的 令 牌 或 从 本 PE 输出 口 
来 的 令 牌 。 每 次 动作 所 需要 的 令 牌 数 由 指令 中 的 nt 字段 给 出 。 

“等 待 -匹配 ”部 件 将 已 经 接收 到 的 令 牌 暂时 保存 在 它 的 缓冲 器 中 ,等 待 后 续 令 牌 的 到 


来 。 当 所 有 所 需 的 令 牌 均 已 到 达 , 且 标记 匹 来 自 开关 网 络 

配 时 ,就 将 它们 送 到 取 指 令 部 件 的 缓冲 器 | | 
中 。 根 据 标记 中 的 信息 ,从 程序 /数据 存储 输入 品 
器 中 取出 相应 的 指令 ,然后 形成 包含 操作 | 

码 .操作 数 和 目的 地 址 的 操作 包 , 送 到 执行 等 待 -匹配 部 件 


部 件 去 执行 。 执 行 部 件 中 有 一 个 浮 点 和 俱 | 
辑 运算 部 件 以 及 一 个 用 于 确定 下 一 个 操作 和 全 上 -一 一 一 取 指 令 部 件 
和 目的 地 该 用 哪个 PE 的 硬件 。 

工 结构 存储 器 是 一 个 带 标记 的 专用 存储 
器 ,用 于 存放 类 似 于 数组 的 数据 结构 。 如 果 | | 
操作 数 是 结构 数据 , 则 该 数据 从 工 结构 存储 执行 部 分 
器 取得 。 工 结构 的 每 一 个 元 素 都 有 一 位 标 [结构 存储 器 | “| i 
志 。 当 读 出 时 ,车 该 元 素 的 标志 为 0, 就 表示 
其 值 尚未 产生 , 则 自动 推迟 读 操作 。 使 用 这 
种 工 结构 存储 器 可 以 避免 过 多 的 数组 复制 
操作 ,节省 大 量 的 存储 空间 和 辅助 操作 1 
开销 。 去 开关 网 路 


对 于 由 运算 部 件 或 存储 器 产生 的 结果 ， 图 14.16 MIT 动态 数据 流 计算 机 中 PE 的 结构 


1 
输出 口 
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为 之 配 上 新 的 标记 和 目的 地 PE 号 后 ,将 它们 送 往 输 出 口 。 通 过 输出 口 经 开关 网 络 送 往 目 
标 PE。 如 果 目 的 地 PE 就 是 本 PE, 就 直接 送 入 本 PE 的 输入 口 ,而 不 经 过 开关 网 络 。 为 了 
避免 在 PE 各 部 件 中 多 个 通路 传输 数据 时 发 生 冲 突 、 阻 塞 或 死 锁 ,各 个 部 件 都 设 有 相应 的 组 
冲 器 。 

PE 中 没有 程序 计数 器 ,但 有 一 个 存放 已 激活 指令 的 列表 。 已 激活 指令 的 执行 是 无 
序 的 。 


NXN 的 开关 网 络 是 用 祝 logs N 个 2x2 的 开关 单元 组 成 的 网 络 , 它 有 log:N 级 。 其 基 


本 形式 与 第 9 章 已 介绍 过 的 多 级 互连网 络 类 似 。 在 每 个 开关 入 口 有 一 个 异步 控制 器 ,用 来 
控制 不 等 长 的 包 交 换 。 开 关 出 口 处 有 仲裁 电路 ,用 来 解决 可 能 出 现 的 路 径 冲 突 。 

2. 环 状 结构 动态 数据 流 计算 机 

Manchester 动态 数据 流 计算 机 是 环 状 结构 的 典型 代表 ,其 结构 如 图 14. 17 所 示 , 它 由 5 
个 功能 部 件 组 成 , 按 顺 时 针 方 向 进行 连接 ,形成 一 个 环 状 流水 线 。 这 5 个 部 件 是 : 交换 开关 
网 络 , 令 牌 队列 ,匹配 部 件 ,节点 存储 器 ,处 理 部 件 。 这 种 结构 允许 多 个 令 牌 以 先进 先 出 的 队 
列 形 式 同时 存在 于 数据 流程 序 图 的 一 个 弧 上 ,该 数据 流 计 算 机 采用 令 牌 包 通 信 。 


输入 _ 念 牌 包 


8X8 开关 网 络 站 
带 标记 的 外 
令 牌 包 1 
(96 位 ) 令 牌 队列 
64KX97 
处 理 部 件 过 
(15 个 处 理 单元 ) 褒 
f 1 包 
匹配 部 件 
16K X97 
人 时 
(可 执行 指令 包 ) ”= 一 一 
可 执行 包 (167 位 ) | 64 段 X4K 令 牌 组 包 (133 位 ) 


图 14.17 Manchester 动态 数据 流 计算 机 的 结构 


在 Manchester 动态 数据 流 计算 机 中 , 令 牌 主要 由 数值 .标记 以 及 目标 节点 地 址 等 几 部 
分 组 成 ,而 指令 则 是 由 操作 码 、 操 作 数 、 标 记 、 数 据 令 牌 的 目的 指令 (两 个 ) 等 组 成 的 ,如 
图 14. 18 所 示 。 标 记 中 包含 三 部 分 信息 : 令 牌 所 属 进程 的 标识 符 , 令 牌 所 在 的 数据 流程 序 
图 中 的 弧 , 代 表 弧 上 第 几 个 令 牌 的 迭代 序号 。 

处 理 部 件 由 15 个 功能 相同 的 处 理 单元 (PE) 组 成 ,这 些 PE 可 并 行 地 执行 指令 ,所 执行 
的 指令 包括 定点 运算 、 浮 点 运算 、 数 据 传送 、 打 标记 等 ,每 个 PE 都 有 输入 缓冲 器 和 输出 组 
冲 器 。 

从 开关 网 络 输入 的 数据 令 牌 组 成 一 个 令 牌 包 存 入 令 牌 队列 , 令 牌 队列 按 先进 先 出 的 方 
式 工作 。 匹 配 部 件 按照 令 牌 的 特征 值 对 令 牌 进行 匹配 , 即 把 从 令 牌 队列 中 送 来 的 数据 令 牌 
与 匹配 部 件 中 已 经 存在 的 令 牌 进行 比较 ,看 是 否 具有 相同 的 特征 值 。 当 一 个 节点 (指令 ) 所 
需 的 令 牌 全 部 到 达 后 ,该 节点 即 被 激活 。 这 时 ,将 数据 令 牌 和 匹配 特征 值 合 并 成 一 个 令 牌 组 
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包 , 送 往 节点 (指令 ) 存 储 器 。 该 存储 器 存放 数据 流程 序 。 根 据 目 的 节点 说 明 符 从 节点 存储 
器 中 取出 相应 的 指令 ,并 与 令 牌 组 包 携带 的 操作 数组 成 可 执行 包 , 送 到 处 理 部 件 上 执行 。 处 
理 部 件 执行 完 后 ,将 结果 令 牌 输出 , 送 入 8X8 的 交换 开关 网 络 。 
操作 结果 可 根据 需要 经 交换 开关 网 络 送 往 宿主 机 、 外 围 设备 或 男 一 台数 据 流 计算 机 。 
Manchester 数据 流 计算 机 具备 高 度 并 行 数据 驱动 能 力 . 因 而 具有 很 高 的 处 理 速度 。 
Manchester 动态 数据 流 计算 机 采用 高 级 数据 流 语言 Lapes 编程 ,这 是 一 种 单 赋值 的 程 
序 设计 语言 ,其 语法 规则 类 似 于 PASCAL 语言 。 


系统 /计数 标志 “1 位 

| 特征 值 (tag) ” ”36 位 | 

操作 码 12 位 

系统 /计数 标志 1 位 操作 数 1 37 位 
特征 值 (tag) 36 位 操作 数 2 37 位 
目的 地 址 32 位 目的 地 址 1 22 位 
数值 37 位 目的 地 址 2 22 位 

(a) 数据 令 牌 格式 (b) 指令 格式 


图 14. 18 ” Manchester 动态 数据 流 计 算 机 的 指令 格式 及 数据 令 牌 格式 


14.4 数据 流 计 算 机 的 评价 


14.4.1 数据 流 计算 机 的 优点 


数据 流 计算 机 在 许多 方面 的 性 能 都 优 于 传统 的 汉 ， 诺 依 曼 型 计算 机 。 下 面 对 这 些 优点 
作 一 简单 介绍 。 其 中 有 些 已 经 得 到 了 模拟 实验 的 验证 。 

1. 高 度 并 行 运算 

数据 流 计算 机 可 以 实现 操作 的 高 度 并 行 性 , 它 不 仅 能 够 开发 程序 中 有 规则 的 并 行 性 ,而 
且 可 以 开发 程序 运行 中 隐 含 的 并 行 性 。 在 数据 流 方法 中 ,由 于 没有 指令 执行 顺序 的 限制 , 因 
此 从 理论 上 讲 , 只 要 硬件 资源 充分 ,就 能 获得 最 大 的 并 行 性 。 以 前 的 研究 和 实验 表明 ,数据 
流 计算 机 对 许多 问题 的 加 速 比 随 着 处 理 机 数目 的 增加 而 线性 地 增长 。 

2. 流水 线 异步 操作 

与 冯 ，。 诺 依 曼 型 计算 机 不 同 ,数据 流 计算 机 中 的 指令 不 是 引用 操作 数 的 地 址 ,而 是 直接 
使 用 操作 数 本 身 ,所 以 数据 流 计算 机 实现 的 是 无 副作用 的 纯 函 数 型 程序 设计 方法 。 可 以 在 
过 程 级 和 指令 级 充分 开发 程序 中 的 异步 并 行 性 ,可 以 把 串 行 计算 问题 用 简单 的 方法 展开 成 
并 行 计算 问题 来 处 理 。 例 如 ,把 一 个 循环 程序 中 的 多 个 相 邻 循环 体 同时 展开 ,将 循环 体内 和 
循环 体 间 原本 相关 的 操作 数 直接 互相 迭代 ,形成 一 条 异步 流水 线 ,从 而 使 一 个 循环 程序 内 不 
同 层 次 的 循环 体能 够 并 行 执行 。 

3. 与 VLSI 技术 相 适 应 

VLSI 技术 的 发 展 是 推动 计算 机 技术 发 展 的 重要 因素 之 一 ,而 数据 流 计 算 机 结构 的 基 
本 组 成 所 具有 的 模块 性 和 均匀 性 正好 与 VLSI 技术 相 适 应 。 其 中 的 指令 存储 器 、 数 据 令 牌 
缓冲 器 .可 执行 指令 队列 缓冲 器 等 存储 部 件 都 可 以 采用 VLSI 技术 制造 的 存储 阵列 均匀 地 


计算 机 系统 结 欧 教程 (入 2 版 ) 


构成 。 处 理 部 件 和 信息 包 开 关 网 络 也 可 以 分 别 用 模块 化 的 标准 单元 有 规则 地 连接 构成 。 

4. 有 利于 提高 程序 设计 效率 

数据 流 计 算 机 使 用 的 是 基于 纯 函 数 操作 的 程序 设计 语言 , 它 完 全 据 弃 了 传统 编程 语言 
所 依赖 的 变量 和 变量 赋值 机 制 ,从 而 彻底 消除 了 编程 中 使 用 全 局 变量 和 同名 变量 所 产生 的 
副作用 。 另 外 ,由 于 函数 程序 设计 语言 有 更 高 的 自动 向 量 识别 能 力 ,也 使 得 机 器 对 数据 流 的 
分 析 和 处 理 更 为 有 效 。 

基于 函数 程序 设计 语言 编写 的 程序 具有 良好 的 结构 ,并 符合 程序 设计 方法 学 的 要 求 , 这 
将 使 程序 的 编写 更 加 容易 ,从 而 可 提高 程序 设计 的 速度 ,效率 及 可 靠 性 。 


14.4.2 数据 流 计算 机 的 缺点 


不 过 ,也 有 一 部 分 人 认为 ,上 述 这 些 数据 流 技术 的 优点 实际 上 只 有 在 理论 化 的 数据 流 计 
算 机 模型 中 才 具 备 ,实际 的 数据 流 计算 机 为 获得 这 些 优 点 往往 要 付出 巨大 的 代价 ,从 而 使 得 
实际 上 的 数据 流 计 算 机 具有 许多 明显 的 缺点 。 也 许 正 是 由 于 这 些 缺 点 , 才 使 得 到 目前 为 止 ， 
数据 流 计 算 机 发 展 一 直 很 慢 ,更 不 用 说 与 传统 的 计算 机 竞争 了 。 

1. 系统 开销 大 

数据 流 计 算 机 的 指令 格式 与 传统 计算 机 不 同 , 它 包含 一 个 操作 码 ,两 个 源 操作 数 以 及 一 
个 或 多 个 后 继 指 令 的 地 址 , 某 些 动态 数据 流 计算 机 的 指令 中 还 有 许多 标记 位 ,所 以 其 指令 长 
度 一 般 很 长 。 这 不 仅 要 占用 更 多 的 存储 器 空间 ,而 且 存 取 这 些 指令 的 操作 也 变 得 更 加 复杂 ， 
更 加 占用 时 间 。 估 计 在 空间 和 时 间 上 的 开销 要 比 传统 的 计算 机 多 3 一 6 倍 。 

基于 函数 操作 的 程序 设计 语言 使 数据 流 计算 机 中 存在 由 大 量 中 间 结 果 形 成 的 数据 令 
牌 。 一 方面 这 些 数据 令 牌 在 系统 中 的 频繁 流动 会 增加 产生 冲突 的 可 能 性 ,系统 为 减 小 冲突 
而 设置 的 大 量 局 部 缓冲 器 将 会 导致 开销 的 增加 和 通信 路 径 的 延长 ; 另 一 方面 中 间 结 果 虽 不 
用 存 人 共享 存储 器 ,但 其 形成 的 数据 令 牌 装 和 人 相 联 存储 器 进行 匹配 操作 所 花费 的 开销 要 比 
传统 计算 机 的 R-R 型 指令 的 开销 大 好 几 倍 。 

虽然 数据 流 计算 机 中 各 部 件 的 异步 操作 能 够 形成 一 条 宏 流 水 线 , 使 通信 障碍 不 会 影响 
操作 部 件 的 利用 率 ,但 是 过 长 的 流水 线 需要 大 量 的 并 行 操作 才能 填 满 。 有 实验 表明 ,一 台 
64 个 处 理 机 的 动态 数据 流 计算 机 ,需要 640 个 并 行 操作 才能 将 流水 线 填 满 。 如 果实 际 应 用 
问题 达 不 到 这 样 高 的 并 行 度 , 数 据 流 计算 机 的 效率 就 会 降低 。 

导致 数据 流 计 算 机 操作 开销 大 的 一 个 主要 原因 是 把 并 行 性 完全 放 在 了 指令 级 上 ,而 不 
是 像 传 统 的 计算 机 那样 去 开发 多 种 更 高 级 别 的 并 行 性 ,如 线程 级 、 进 程 级 、 过 程 级 等 。 如 果 
不 恰当 地 把 高 一 级 并 行 性 都 依赖 低级 别 的 并 行 性 来 实现 ,往往 就 会 付出 过 高 的 代价 。 

数据 流 计算 机 操作 开销 大 的 另 一 个 原因 是 完全 采用 异步 操作 ,没有 集中 控制 。 数 据 流 
计算 机 为 了 支持 异步 操作 ,设置 了 大 量 用 于 和 暂 存 指令 ,数据 令 牌 以 及 各 种 标识 和 应 答 信和 号 等 
的 缓冲 器 ,而 实现 任务 排队 策略 、 异 步 操作 和 随机 调度 都 需要 大 量 的 操作 开销 。 

2. 不 能 有 效 地 利用 传统 计算 机 的 研究 成 果 

数据 流 计算 机 独特 的 解 题 方法 使 它 具 有 与 传统 计算 机 完全 不 同 的 系统 结构 ,这 无 疑 为 
计算 机 技术 的 发 展开 辟 了 全 新 的 领域 .但 同时 也 意味 着 它 无 法 借鉴 和 继承 传统 计算 机 技术 
成 熟 的 研究 成 果 。 在 传统 计算 机 上 长 期 积累 的 丰富 软件 成 果 不 能 被 有 效 利用 。 这 都 将 影响 
数据 流 计 算 机 在 市 场 上 对 传统 计算 机 的 竞争 力 。 
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3. 数据 流 语 言 尚 不 完善 

目前 已 有 的 数据 流 语 言 都 存在 某 些 缺陷 ,有 必要 进行 改进 和 完善 。 例 如 对 并 行 性 的 描 
述 在 数据 流 语言 中 是 隐 含 的 , 需 由 编译 系统 开发 其 中 的 并 行 成 分 ,这 将 使 数据 流 计算 机 中 的 
编译 过 程 变 得 复杂 和 费时 ,而 且 这 种 方式 并 不 总 是 有 效 的 。 另 外 ,数据 流 语言 还 不 能 实现 输 
入 输出 操作 的 控制 ,对 操作 系统 的 研究 也 还 很 不 成 熟 。 


14.4.3 数据 流 计 算 机 设计 中 需 解 决 的 问题 


综合 上 面 的 论述 可 知 ,数据 流 计算 机 设计 中 需要 解决 以 下 主要 技术 问题 : 

(1) 研制 易于 使 用 、 易 于 用 硬件 实现 的 高 级 数据 流 语言 ; 

(2) 研究 程序 如 何 分 解 ,研究 如 何 把 程序 模块 分 配给 各 处 理 部 件 的 算法 ; 

(3) 设计 出 性 能 价格 比 高 的 信息 包 交 换 网 络 , 实 现 资源 冲突 的 仲裁 和 数据 令 牌 的 分 配 
等 大 量 通信 工作 ; 

(4) 研究 智能 化 的 数据 驱动 机 制 ; 

(5) 研究 如 何在 数据 流 环境 中 高 效率 地 处 理 复杂 的 数据 结构 ; 

(6) 研究 支持 数据 流 运算 的 存储 系统 和 存储 分 配方 案 ; 

(7) 在 广泛 的 应 用 领域 里 ,对 数据 流 计算 机 的 硬件 和 软件 做 出 性 能 评价 ,估计 各 种 系统 开销 ; 

(8) 研究 数据 流 计算 机 的 操作 系统 ; 

(9) 开发 数据 流 语言 的 跟踪 调试 工具 。 
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14.1 解释 下 列 名 词 。 
数据 流 计 算 机 数据 驱动 计算 需求 驱动 计算 数据 令 牌 
数据 流程 序 图 静态 数据 流 计算 机 动态 数据 流 计算 机 
14.2 数据 驱动 具有 哪些 特性 ? 
14.3 简 述 数据 流 计算 机 指令 的 组 成 。 
14.4 用 节点 分 支线 方法 画 出 求解 
t= Vla+6)d/c—e/d 
的 数据 流程 序 图 。 当 a 二 4.6 二 8 时 , 画 出 该 数据 流程 序 图 的 执行 过 程 。 
14.5 用 节点 分 支线 方法 画 出 
z=(IF x=10 THEN x—y ELSE x 十 y)/y 


的 数据 流程 序 图 。 
14.6 用 活动 模 片 表示 法 画 出 计算 
=abta/b 
的 数据 流程 序 图 。 


14.7 VAL 语言 具有 哪些 优点 ? 

14.8 简 述 静态 和 动态 数据 流 计 算 机 的 主要 区 别 。 

14.9 为 什么 数据 流 计 算 机 中 通常 要 设置 工 结构 存储 器 ? 
14.10 数据 流 计算 机 有 哪些 优 缺 点 ? 
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